IT界討論區(45)龍力蓮：你睇下你似咩?成個毒男咁！臭架你！

利撚 2018-10-19 11:04:55 同層隔離部門D女同事就好正

:^(

利撚 2018-10-19 11:07:43 要, 英文 2, 中文 1

:^(

考左幾次, 中英文都係 F

:^(

屌埋你果份 2018-10-19 11:12:53

:^(

i-vtec 2018-10-19 11:13:15

:^(

ygIKYOHR9gnGmD9Y 2018-10-19 11:15:36 其實你個image query一模一樣的image 定相似的image

例如我input 一架紅色Tesla ，會唔會揾到一架rotate 45度的紅色的Toyota

前者其實容易好多

:^(

手一黏便緊(UTC+9 2018-10-19 11:23:45 啱啱相反你個例子其實容易好多
你個例子係object labelling基本上就係NN
具體黎講你可以用yolo 9000去做labelling 然後倒入任何一個支持快速full text search既db (MySQL full text search太慢不過有大把現成野做到

但係如果係講緊想要同一張既rotated/scaled/chopped/down sampled version排前啲紅車但唔同車款排後啲
咁個backing datastore係難啲既

作Code人 2018-10-19 11:26:29 呢個都係方法，但full table scan，多data會慢。lucene甚或elasticsearch應該可以秒殺，但如果用elasticsearch 就要manage多一set野。不過如果用elasticsearch image plugin成個solution會好簡單，容易implement，performance 又好，唯一唔好係store咗duplicate data，多咗野要manage

手一黏便緊(UTC+9 2018-10-19 11:28:21 利申 exactly兩者都有做
老實講當然唔係完全由零開始做

前者可以用opencv成堆descriptor
後者可以call google vision API 可以call Microsoft computer vision API 可以用yolo 9000

個難題係係你preprocess完啲image之後先開始

:^(

ygIKYOHR9gnGmD9Y 2018-10-19 11:34:10 Classification is not content retrieval

:^(

比你train imagenet 1000個class

我如果張input圖個object唔係1000個class入面點，同時有兩個object 點

如果你係只係要做同一張圖的crop rotate scale一定簡單好多，係algo 層面黎講

不過implement當然有好多複雜野要解決

ygIKYOHR9gnGmD9Y 2018-10-19 11:39:46 二十萬成本仲要用api

:^(

最頭到尾搭個pretrain好的 yolo 其實唔使15分鐘

ygIKYOHR9gnGmD9Y 2018-10-19 11:40:58 分分鐘學m$個api都要搞幾個鐘

:^(

手一黏便緊(UTC+9 2018-10-19 11:41:42 Full table scan唔係方法因為講左8位數image
其實正正係因為vendor比左個full table scan 所以先要自己寫

:^(

啱啱先留意到elasticsearch 有image plugin
無用過不過望左下doc 稍為評價下部分feature
1. Color histogram 有bucket界線問題係一個我implement左然後放棄既方法另外RGB/HSV simply係藍綠色方面表現不佳
2. SIFT/SURF係好但係要license 實際上我本身係想用SIFT/SURF既不過我連license pricing資訊都搵唔到

:^(

3. Hashing 係非常好事實上我都有用到但係唔support chopping 對rotation同scale既support都稍弱

另外唔知道佢內部點index 評價唔到佢scale up去8位數圖片個時既performance

手一黏便緊(UTC+9 2018-10-19 11:50:08 足夠多既Classification can be used to do content retrieval
當然啦 8位數既圖片量你要夠多class先夠做 preprocess cost會偏大但係咁滿足到合理既query time

一張圖同時有多個object完全唔係問題倒不如話係好事黎
因為bag of word

老實講一張圖你做咩都簡單
講緊8位數張圖
逐張做offline preprocess都好簡單
Online query個下先係問題既核心

手一黏便緊(UTC+9 2018-10-19 11:54:47 我會話用yolo+lucene係一個好快速某啲use case行得好好又平既方案
但係個use case要求稍為高啲已經唔夠用

例如你個database好多手袋既圖既
你拎其中一張既downsample去search
咁你呢個方案會出晒啲手袋但係你真正想要個張可能會排到好後

作Code人 2018-10-19 11:58:21 如果係content retrival，咁你index哂d text，已經簡化變成係full text search by score，定係full text search by score個result唔理想？

手一黏便緊(UTC+9 2018-10-19 12:01:05 #740 我舉左個例子佢係咩情況下唔理想
利申唔係話呢個方案唔好實際上係CP值極高既方案只係simply唔啱我地其他use case
實際上呢個方案我地係有implement到作為成件事既其中一部分

睇電視唔望mon 2018-10-19 12:14:51

:^(

作Code人 2018-10-19 12:18:53 如果單係full text search唔理想，elasticsearch 可以support埋hash distance filter，可以加埋其他criteria嘅weighting

i-vtec 2018-10-19 12:19:16 你見識少姐

:^(

利伸唔識

手一黏便緊(UTC+9 2018-10-19 12:22:09 其實我本身只係想大家估價因為我後續係想講我下一手同事既慘況同前老細既涼薄說話
我都唔想span入去技術細節的大家可唔可以估下價然後我再繼續返我個agenda

:^(

植樹林 2018-10-19 12:34:16 香港的話十萬至一百萬港紙？
國外的話十萬至百萬美金？

植樹林 2018-10-19 12:35:16 睇落機器錢佔大部分

最鐘意埋單 2018-10-19 12:49:30 有冇人知PCCW solution chur唔chur

:^(

可憐貓 2018-10-19 12:55:52 請睇第一頁