在月二
2022-5-17 18:25:27
要睇吓你嗰份data最終用嚟做咩
通常你係想用嚟train ML model先會諗點樣填返d missing value。用mean/mode係其中一個方法。另外,有啲方法會用groupby 其他column做個mean,咁會準過global mean。例如可能你set data有唔同職業嘅income,咁有啲人冇填income 但有填職業,你就可以試下搵返佢個職業嘅income 嘅mean/mode/median填入去。不過呢個方法都要考慮,其實點解啲人唔填income,可能係因為一般低啲income嘅人會選擇唔填比較多,咁所以我地有時夾硬fill in d data就會lead to bias
所以有時可能會直接drop左d NA
其實每個case都真係唔同
所以點解ML model 同一set data,唔同嘅人會有唔同嘅approach,train出嚟都會唔同
至於outlier 其實都係一樣,好睇case by case。有時個outlier 雖然可能數字上好大分別,但都可能唔係真係outlier,所以你drop左佢,可能其實又會derail from reality。但有時又可能真係係outlier嚟㗎喎,咁所以呢啲全部都係要個ML engineer case by case 咁決定,冇一個標準答案。
不過以上講呢啲都係for ML.
如果你d data 最終係用嚟做dashboarding,咁就一般都唔會需要fill in NA或者移走outlier (但data anomaly 例如有人人手入錯多左個零之類,就要處理)
因為business 通常都係想睇返最原本嘅情況
好撚多蚊
2022-5-22 02:24:07
岩岩fg個科有da title 但讀完完全唔知學左d 咩 (可能個人hea)
:^(
python又唔識淨係識sql, tableau,spss 個d 準備搵工 極度迷茫中
:^(
:^(
拆人胸手
2022-5-23 21:05:24
數據分析唔係重點黎,點將啲數做得好睇先係精粹
十次中出不換套
2022-5-23 21:19:56
我反而冇咩點用過SQL
反而寫R/python最多, 其次power BI同 present or pitch
呢份工就有時玩下statistical modelling, k means clustering, 主要係就住biz ask 去設計一個data solution 解答biz上問題
Ads
水原千鶴
2022-5-24 02:48:01
1. 用主流方法 flag outliers e.g. isolation forest, robust distance. 用 turkey's fence 有問題係永遠唔會 adjust for skewness. 基本上實際上係永遠都唔用
2. NA value 如果要 imputation 就要額外開多個 column flag 咗佢.
最簡單電話號碼可以 12345678,85212345678,+85212345678,+852 12345678
,好撚煩,最煩係文字,例如地址,客戶名,貨品名稱
唔係下下都有個unique id去locate