[JAVA高手入] 幾億個item要點先fit到入2gb heap space?
尻唔易柒 2022-8-12 04:56:41
:^(

Ads

尻唔易柒 2022-8-12 04:59:28
:^(
無料放送 2022-8-12 04:59:47
:^(
垃圾2一2號 2022-8-12 05:02:05 姐係佢其實比你有loss? 有冇考慮過discretize d value 例如用step function 1個byte 一個value =>256個step
thistown 2022-8-12 05:06:09
:^(
尻唔易柒 2022-8-12 05:06:15
:^(
瑪麗蓮夢小路寶 2022-8-12 05:08:25 Trie
尻唔易柒 2022-8-12 05:10:27
:^(
沉睡的獅子 2022-8-12 05:11:03 Collaborative recommendations 好多時都會用 low rank approximation 嫁窩,svd之類
尻唔易柒 2022-8-12 05:18:54
:^(
Everest 2022-8-12 05:32:13 如果接受到loss嘅話,不如試下用1個byte儲頭兩位小數,即係0.85xxxxx->85咁嚟儲
然後50000C2個byte應該細過2gb

Ads

thistown 2022-8-12 05:38:17
:^(
小必廚 2022-8-12 05:38:40 唔識Java,
但Python 可以free memory by using garbage collector module to delete object.

如果用Python 我會拆細Input 做batches,
每次只load 一個batch 入memory,
process 完每個batch 就delete.
Java 個garbage collector 有無function 可以淨係delete 某個object? e.g. 1d array
尻唔易柒 2022-8-12 06:00:41
:^(
尻唔易柒 2022-8-12 06:18:07
:^(
尻唔易柒 2022-8-12 06:18:50
:^(
沉睡的獅子 2022-8-12 06:30:23 嚴重懷疑你仲鑽緊牛角尖

Big data course 點會要你學處理garbage collection野?
沉睡的獅子 2022-8-12 06:47:20 同埋叫你做得collaborative filtering, 應該會有missing data (唔係要你predict d咩野),咁計個exact Pearson correlation matrix 把鬼?

我識既collaborative filtering 係搵U,V兩個lower rank matrix, 令UV 大約等如 原本個movie-user rating matrix

用gradient descent, minimize X-UV 既frobenenius norm, 忽略未知既ranking

有左optimize 左既U同V,就可以估計未知既ranking

不過我唔知你個course係學咩野
:^(
人生書家 2022-8-12 08:24:09 我覺得其實佢諗錯咗,個intermediate file writing/reading都係樓主implement,其實就係畀緊機會用hard disk,只要整一個intermediate file format係好易random write/read,就已經解決咗個問題 (個重點係要efficient random write/read)

上面我已經講咗點做,樓主都係繼續鑽牛角尖
同埋個matrix其實唔洗20G,10G就夠,因為係pair嚟,唔需要儲存(A1, A2), (A2, A1)兩pair,因為兩個數係一樣嘅 (用到binary format寫,10G其實算可以接受,當然如果係sparse嘅,可以再細啲)
りき 2022-8-12 09:32:57 你上一次kaggle就知係必要技能
香蕉傳說 2022-8-12 10:26:12 一個array記低non zero index
一個hashing map做idx, value mapping

Ads

PascalCase 2022-8-12 10:51:44
:^(
幽默的石頭 2022-8-12 13:48:37 其實唔洗用曬全部data
幽默的石頭 2022-8-12 13:51:25 雖然我係寫python ,但係我都係覺得樓主太貪心要用曬d data
正常big data就唔洗garbage collection
就算要都係寫三四句,邊度咁複雜
幽默的石頭 2022-8-12 13:55:14 我唔記得R定python有得抽返d重要嘅data去做dataset
可以去曬全部為0既data
2gb data嘜差都夠,你做Pearson姐麻