LIHKG 話說最近真係將self hosted AI帶入工作上
黃金性體驗 2024-11-22 08:38:57 陰鳩公
:^(
:^(
:^(

搞一大輪野先用到AI
其他國家上個網就搞掂

Ads

大棍巴 2024-11-22 08:39:22 你個model好大?
3080得10 GB VRAM好易爆,一爆就落CPU用RAM,自然慢好多。
Peter_Pan 2024-11-22 08:48:25 7B算唔算好大
:^(
呀邊個 2024-11-22 08:53:56 coder直接用github copilot 算, openai就係個外國server setup個webui可以直連
self host 如果多人用, 張卡再勁都頂唔順
10蚊跟機 2024-11-22 08:55:47 有諗過好似樓主咁自己整llm
不過計埋gpu,電費
都係正正經經call open ai api算
10蚊跟機 2024-11-22 08:58:07 我用緊openai api key
frontend用gradio,得幾行code,host用heroku 7蚊美金
Iconman 2024-11-22 08:58:56 lm
極北鷲 2024-11-22 09:15:09 如果多人用既話可以試下vLLM做backend
我理解 佢係specifically designed for multi user workload
:^(
而且唔會爆VRAM 同埋自己識去queue request
我呢個都係自私用,講錢既話就肯定唔值的,但都叫學到野
:^(
極北鷲 2024-11-22 09:16:45 我自己係用continue 冇用過cline
:^(
其實唔知cline work唔work
:^(
大棍巴 2024-11-22 09:18:43 唔關事,係LocalLLM本身就有其他use case,例如行RAG,或者本身要handle sensitive information。
大棍巴 2024-11-22 09:19:34 唔大,7B你行Q8應該都fit到落10GB,再唔係試下Q6/Q4。

Ads

大棍巴 2024-11-22 09:20:59 計cost一定係用OpenRouter平
:^(
求其打住先啦 2024-11-22 09:25:38 點解唔直接用cursor
:^(
10蚊跟機 2024-11-22 09:32:25 langchain同vector datastore
極北鷲 2024-11-22 09:38:28 BTW其實有冇人試過用付費AI service做autocompletion?

就我理解 要autocomplete得好既前提係個model係有train for FIM (fill-in-middle)
咁代表左autocomplete model唔係有大揀大,有時較細既model更適合做autocomplete
(不過當然較大既model更適合做chat)

Qwen2.5 coder就同時勝任到chat同autocompletion
:^(
武(上)裝人妻 2024-11-22 09:43:21 成本要幾多?
大棍巴 2024-11-22 09:49:30 最低限度建議一張3090,二手6-7千左右。
想平唯有唔玩local,用OpenRouter行API可以做到類似用途,0.2 USD/M input/output token。
極北鷲 2024-11-22 09:50:03 二手3090 我個時係買左7000港紙(好似係)
你肯搏既話 ebay應有更平

之後仲有機箱 CPU之類 加埋都至少10k
:^(



但部野除左行AI之外仲有其他用途,例如sunshine gaming server同埋web server
天才小釣手 2024-11-22 10:08:31 咁我地都可以直接上Qwen,文心一言個網
仲有總部喺中国香港嘅商湯科技嘅商量



人地緊係有特別原因(上唔到網/怕資料外洩)先揀localhost llm
人地share下
你就走入嚟踩港😅
龜頭四 2024-11-22 10:47:27 LM
津路茶 2024-11-22 10:57:04 local run 比訂閱既成本好高
同埋model 更新速度無咁快 要等
除非好私人野想做
長期用搞唔掂
好似係
:^(

Ads

極北鷲 2024-11-22 11:38:54 成本高 -> true, high initial hardware cost

更新速度冇咁快 -> 唔一定,你去reddit r/localllama睇下,出新野既頻率其實唔低,例如近幾日deepseek好似話會出新野,又聲稱勁過qwen2.5

長期用搞唔掂-> 唔評價,睇你住咩地方,電費貴唔貴

btw買隻GPU又唔淨止得AI可以行既,我自己係用佢做Sunshine server,想打機時,去大廳大電視開Moonlight駁佢去打機,真係正
:^(
CapaCitor 2024-11-22 12:43:59 香港地做IT就係咁撚on9
樓主好心分享下自己研究既野
勁多人出來厭三厭四
又唔見佢地有咩好野拎到出來
:^(


樓主係香港搞呢D真係浪費哂
hknoit
阿仙奴世界第一 2024-11-22 12:47:25 會唔會打算分享下點樣一步步set up?
阿虜 2024-11-22 12:49:53 多謝樓主

btw, 最近copilot 開放左sonnet 可以試用,去github setting 開返就會見到