[JAVA高手入] 幾億個item要點先fit到入2gb heap space?
尻唔易柒 2022-8-13 19:19:45
:^(

Ads

りき 2022-8-13 19:22:26 有冇用symmetry
尻唔易柒 2022-8-13 19:34:55
:^(
賓周30cm 2022-8-13 20:38:05 此回覆已被刪除
ADMM 2022-8-14 00:31:49 簡單
你calculate 正係要return 一個object
咁就define 一個class & return an object with attribute of input data條path
個writeCorrelationMatrix method 先真係做read, calculation同write
尻唔易柒 2022-8-14 06:24:56 行左12個鐘先行左一半有多
:^(
人生書家 2022-8-14 06:46:53 Big data係咁

如果你識multi threading,可以砍到幾份一/十幾份一(視乎你部機有幾多thread)
尻唔易柒 2022-8-14 08:30:00
:^(
2022-8-14 17:00:46
:^(
:^(
一定唔係幾個鐘
2x mins 左右for 100k data set
尻唔易柒 2022-8-14 17:26:48
:^(
黑膠蠍 2022-8-14 18:17:22
:^(

Ads

VVWVV 2022-8-14 22:05:58
:^(
尻唔易柒 2022-8-14 23:55:57
:^(
尻唔易柒 2022-8-14 23:56:59
:^(
程式猿 2022-8-15 00:28:01 Rounding 咪係 LSH
:^(
尻唔易柒 2022-8-15 00:36:48
:^(
程式猿 2022-8-15 01:23:11 collaborative filtering
:^(

Google la
尻唔易柒 2022-8-15 01:41:25
:^(
りき 2022-8-15 01:45:41 佢之前睇過啲咩戲/評過咩野分都無提供過

咁你個 correlation 係用咩計
尻唔易柒 2022-8-15 02:58:57 internal dataset有比past record 所以計到個correlation

但external無比
咁樣 就算用LSH都應該計唔到?
尻唔易柒 2022-8-15 18:51:37 唉仆街
我諗肥撚硬
:^(

我估佢係expect我用lsh做
但我用左naive方法做
:^(
:^(

Ads

VVWVV 2022-8-15 19:39:35 你而家學仲趕得切
:^(
尻唔易柒 2022-8-15 20:01:12 聽日交
但我仲未睇得明lsh 同唔知點放入啲
code度
:^(
克勞迪山農 2022-8-16 10:53:14 即係做bucketing
上面有巴打計左50000*50000用 bitset 都成300mb
每個entry 分得6個bit

要用6個bit approximate 原本既Pearson correlation

咁你可以有2^6 =64個float ,用6個bit 做index ,每個entry assign 最接近既float 既index ,儲起matrix 度 (6bit *50000*50000=1.75GB, float numbers 64*4byte )

write 既時候,每個entry 搵返6bit index 對應既float

而果64個float 最簡單就uniform interval 由最細到最大,例如-3.2,-3.1,...3.1,3.2

其實唔難
尻唔易柒 2022-8-16 16:09:45
:^(