發覺好多人對Data Analyst有錯誤幻想

神之守護者 2022-5-17 17:59:18 如果你做consulting+大陸客，經常發生

:^(

最簡單電話號碼可以 12345678，85212345678，+85212345678，+852 12345678
，好撚煩，最煩係文字，例如地址，客戶名，貨品名稱
唔係下下都有個unique id去locate

:^(

重裝長槍兵 2022-5-17 18:12:04 此回覆已被刪除

在月二 2022-5-17 18:25:27 要睇吓你嗰份data最終用嚟做咩
通常你係想用嚟train ML model先會諗點樣填返d missing value。用mean/mode係其中一個方法。另外，有啲方法會用groupby 其他column做個mean，咁會準過global mean。例如可能你set data有唔同職業嘅income，咁有啲人冇填income 但有填職業，你就可以試下搵返佢個職業嘅income 嘅mean/mode/median填入去。不過呢個方法都要考慮，其實點解啲人唔填income，可能係因為一般低啲income嘅人會選擇唔填比較多，咁所以我地有時夾硬fill in d data就會lead to bias
所以有時可能會直接drop左d NA
其實每個case都真係唔同
所以點解ML model 同一set data，唔同嘅人會有唔同嘅approach，train出嚟都會唔同

至於outlier 其實都係一樣，好睇case by case。有時個outlier 雖然可能數字上好大分別，但都可能唔係真係outlier，所以你drop左佢，可能其實又會derail from reality。但有時又可能真係係outlier嚟㗎喎，咁所以呢啲全部都係要個ML engineer case by case 咁決定，冇一個標準答案。

不過以上講呢啲都係for ML.
如果你d data 最終係用嚟做dashboarding，咁就一般都唔會需要fill in NA或者移走outlier (但data anomaly 例如有人人手入錯多左個零之類，就要處理）
因為business 通常都係想睇返最原本嘅情況

熊孩子 2022-5-18 06:32:29 london工要tech master 43k狗也不屌

騎王 2022-5-18 21:25:54 fg想點

:^(

UlittleCuntMate 2022-5-18 21:35:47 想問下A記姐係邊間？ asl定accenture?

重裝長槍兵 2022-5-19 11:41:06 此回覆已被刪除

無花名用 2022-5-21 01:05:20 Accenture

無花名用 2022-5-21 01:05:59 咩bg?有做過相關野？

劉娜比 2022-5-21 08:09:14

:^(

重裝長槍兵 2022-5-21 10:57:16 此回覆已被刪除

神之守護者 2022-5-21 12:32:47 點解唔考慮下做醫生，律師？仲好搵

:^(

阿蓋達傳說 2022-5-21 12:45:07 冇錯，我做e-commerce sales問親data team有咩insight俾生campaign，次次都又挨又西搞個幾禮拜之後俾啲阿媽係女人既野我，再問多少少就話冇data

:^(

西人姬重耳 2022-5-21 14:13:26 做得耐既話加幅會唔會勁？

要識好多IT application?

拆人胸手 2022-5-22 01:33:09 想問要有咩資格先做得

:^(

Ibankcoding狗 2022-5-22 01:43:09 Data scientist 難好多對數學 program底要求高好多人工都高好多

諗到頭都就爆 2022-5-22 01:56:18 巴打講得好呀
我就係鳩砌dashboard 果啲
砌左半年已經開始覺得悶
老細又為做而做個dashboard 都唔係人地想睇嘅野黎

但自己bba底邊做邊學Tableau / Power Query 依啲BI野希望學埋SQL可以轉到去做其他野

:^(

諗到頭都就爆 2022-5-22 02:13:54 DA想升除左BI tools 同埋SQL 應該要學啲乜

好撚多蚊 2022-5-22 02:24:07 岩岩fg個科有da title 但讀完完全唔知學左d 咩 (可能個人hea)

:^(

python又唔識淨係識sql, tableau,spss 個d 準備搵工極度迷茫中

:^(

拆人胸手 2022-5-23 21:05:24 數據分析唔係重點黎，點將啲數做得好睇先係精粹

十次中出不換套 2022-5-23 21:19:56 我反而冇咩點用過SQL
反而寫R/python最多, 其次power BI同 present or pitch
呢份工就有時玩下statistical modelling, k means clustering, 主要係就住biz ask 去設計一個data solution 解答biz上問題

水原千鶴 2022-5-24 02:48:01 1. 用主流方法 flag outliers e.g. isolation forest, robust distance. 用 turkey's fence 有問題係永遠唔會 adjust for skewness. 基本上實際上係永遠都唔用
2. NA value 如果要 imputation 就要額外開多個 column flag 咗佢.

Flinty 2022-5-24 04:11:15 RANSAC

IU病末期 2022-5-24 12:24:39 想問下有冇師兄有考過Tableau嘅certificate, 覺得有冇需要考？

:^(

Flinty 2022-5-24 12:55:17 沒用。

考MS DA / 讀Google DA 仲好。