[JAVA高手入] 幾億個item要點先fit到入2gb heap space?
無奶油俾人用 2022-8-11 22:45:37 個output 係指d咩 從一個50000 x 50000 搵到邊個position 既值係唔等於0?
:^(
:^(

Ads

雲佩斯剷草 2022-8-11 22:46:31 樓主試下呢個方法
尻唔易柒 2022-8-11 22:47:06
:^(
SQQQ 2022-8-11 22:49:05 big data project 用返 big data 方法
試下切開啲 data 做唔同 partition 逐個 block 做
條問題本身都係預係 hadoop 個類 distributed system run
玉環飛燕 2022-8-11 22:49:27 條題目寫到明啦, 係無可能load晒20gb

咁樣樣則係要用disk
你只有2gb memory.
所以你要唸點樣將個matrix拆做十份
尻唔易柒 2022-8-11 22:50:20
:^(
涼森れむ 2022-8-11 22:51:47 agger
用hadoop map reduce 或者 spark
尻唔易柒 2022-8-11 22:52:00
:^(
秋田藍閃電 2022-8-11 22:53:33 LM
尻唔易柒 2022-8-11 22:54:36
:^(
尻唔易柒 2022-8-11 22:57:23
:^(

Ads

無料放送 2022-8-11 22:57:32
:^(
諸如此類 2022-8-11 22:59:43 用Java google "download more ram"
SQQQ 2022-8-11 22:59:55 唔關事, big data 講究係 divide and conquer
input data 可以去到幾 tb, 無可能俾你寫入 single hard disk
你要分散啲 data 等可以派到去俾 worker
hadoop / spark 係俾你一堆 worker, 單機係 single worker, 做法基本一樣
尻唔易柒 2022-8-11 23:00:31
:^(
披星戴月. 2022-8-11 23:01:15
:^(
無料放送 2022-8-11 23:03:01
:^(
尻唔易柒 2022-8-11 23:03:02
:^(
動新聞 2022-8-11 23:03:02 有冇試過2d array,會比hashmap用少好多memory
尻唔易柒 2022-8-11 23:04:13
:^(
諸如此類 2022-8-11 23:04:57 咁樣不如寫落SQLite
之後落返index
:^(

Ads

沉睡的獅子 2022-8-11 23:05:23 你個input matrix咩樣嫁?plot 個histogram出黎睇下?如果成個feature column係constant 就成欄skip 得
SQQQ 2022-8-11 23:05:54 唔洗寫落 file, 直接開住個 input stream read
個 40gb 係邊度黎 ? http file ?
無料放送 2022-8-11 23:06:45
:^(
妳是我心上人 2022-8-11 23:08:00 上面個sample就係memory mapped file, 將hdd map做memory
以前用c++&win32 api玩過
後來應該c# java vb.net 之流都有原生library支援, 而且cross platform

利申9up