LIHKG 話說最近真係將self hosted AI帶入工作上
極北鷲 2024-11-22 13:05:04 遲D可能會寫篇blogpost

Ads

章魚一味 2024-11-22 13:12:06 搞咁多野直接叫老細俾錢
:^(

ai + vpn 都出公司數
反正你都要經佢同意又要驚動其他部門先用到
Peter_Pan 2024-11-22 14:20:04
:^(
會唔會係本身我部pc開緊隻game食左一大部分resource所以唔夠m2 pro快
極北鷲 2024-11-22 14:53:13 err...你試下齋行個LLM咪知
Peter_Pan 2024-11-22 15:07:59
:^(
如果用pc host就一定唔會齋行,因為要開住隻game黎打

所以而家我都係攞部mac host個翻譯model算
PLTR 2024-11-22 15:23:52 我都有self host ollama做code completion,用緊starcoder2,qwen都有試過,但係啲result出黎on99咁樣
:^(
極北鷲 2024-11-22 15:32:04 可以試多次qwen2.5 coder instruct
:^(
呢個係而家最勁個款 有7B/14B/32B你揀
PLTR 2024-11-22 15:35:13 自膠
:^(
原來我用左qwen2.5做cose completion,一陣試多次
PLTR 2024-11-22 15:40:39 ching用緊邊隻翻譯model
Peter_Pan 2024-11-22 15:41:51 sakurallm
大棍巴 2024-11-22 17:30:01 可以再壓下個成本:
:^(

https://www.tomshardware.com/raspberry-pi/raspberry-pi-5-successfully-accelerates-llms-using-an-egpu-and-vulkan?utm_medium=social&utm_campaign=socialflow&utm_source=facebook.com&utm_content=tomsguide

Ads

極北鷲 2024-11-22 17:43:20 我覺得唔work, RPI個PCIE bandwidth好低(好似係PCIE 2.0 x1), 會唔會影響埋inference speed?

(btw 原來Nvidia有ARM64既driver)
掏龍刀 2024-11-22 17:56:49 gchi
:^(
大棍巴 2024-11-22 18:17:09 單張GPU你load完個model,PCI-E speed 應該就唔重要。如果會行RAG就另一回事。
殺賊 2024-11-22 20:08:07 買Mac mini m4 pro 行llm 值唔值
大棍巴 2024-11-23 12:19:40 除非你想行24GB VRAM以上嘅model,如果你本身有電腦,差唔多錢,買3090/4090會快好多。
Apple Silicon嘅問題係,比你M4 Pro (276 GB/s bandwidth)就算行到大size model都會好慢。
六環彩大師 2024-11-23 12:24:19 Qwen 2.5-coder 有冇fill in the middle
冇跟幾個月了
大棍巴 2024-11-23 12:35:05 Coder model應該全部都有
https://github.com/QwenLM/Qwen2.5-Coder/tree/main
六環彩大師 2024-11-23 12:39:04 之前玩過codellama 第一代
用ollama serve 連vscode extension
煩過西最後都係sub github copilot 算鳩數 果小小錢

加上果時codellama 係垃圾過github copilot
而家見qwen 2.5 好似已經過左兩代 可以再試下
全倉NVDA 2024-11-23 14:25:59 我都想 self host 但 qwen 暫時仲係廢過 claude 好多
meta llama 更加係廢到不得了
如果有個model有 claude 8成就真係不得了
全倉NVDA 2024-11-23 14:27:49 codellama 係咪用 meta llama
呢個真係 model 問題
成個on9仔咁
qwen算係進步左好多
不過都未去到出面啲 level

Ads

大棍巴 2024-11-23 14:53:21 就咁coding Qwen 2.5 Coder 32B其實都有八成,差在context得32k。

Aider leaderboard
https://aider.chat/docs/leaderboards/#code-editing-leaderboard

Livebench(㩒返coding 個column)
https://livebench.ai/#/
托德華納 2024-11-23 15:25:32 我依家用緊open web ui + cloudflared 個setup 再捆綁google account
:^(

個底係晒docker 一個docker compose搞掂
:^(
:^(
旋風管家一拳超人 2024-11-23 15:50:26 copilot chat無得用住

所以enable左都唔知係咪用緊
:^(
:^(
:^(
:^(
:^(
debugger; 2024-11-23 17:34:22
:^(
:^(
:^(
:^(