Ads
gguf
quantization versionQ4
或以上既variant:我理解低過Q4
既話output質素會大幅下降exl2
既話好似係至少4.0bpw?呢個我唔肯定)gguf
既話 backend用ollama就得 setup非常簡單的Qwen/Qwen2.5-Coder-32B-Instruct
ollama run <model name>:<branch>
就得。Ads
gguf
版本以降低VRAM usage(不過會gen得好慢,聽講係一分鐘以上gen一張Ads
TLDR: 自己host個OpenAI API compatible server,再用VSCode extension用佢 (當然要你老細/Infra同意)
Frontend
現時有幾個Open source VSCode extension係支持OpenAI compatible API server. 我自己係用continue。以下列出幾個現成野:
https://www.continue.dev/
https://github.com/cline/cline
(Neovim) https://github.com/yetone/avante.nvim
Continue可以chat, 可以autocomplete, 可以gen code, 幾好用
Backend
個backend server就好多可以揀,ollama/text-generation-webui等等。如果你係想純GPU行AI既話(我自己用3090),可以用vLLM同tabbyAPI。我係用後者
https://github.com/theroyallab/tabbyAPI
tabbyAPI支持spectulative decoding: 意思大概係用個細D既model(draft model)去predict大既model既output。可以大幅加快output speed(我自己至少快左25%)。
Model
Model我而家用緊Qwen2.5-coder,係alibaba整既,community都話佢係現時最強self hosted coding model
如果用tabbyAPI既話,要用
exl2
quantized既model。我用以下兩個:主要model:https://huggingface.co/lucyknada/Qwen_Qwen2.5-Coder-32B-Instruct-exl2
Draft model:https://huggingface.co/lucyknada/Qwen_Qwen2.5-Coder-1.5B-Instruct-exl2
兩個Model都係用4.0bpw variant
不過3090 24GB VRAM係頂唔到呢兩個加埋一齊的,要係tabbyAPI config到set返
cache_mode: Q8
先得。咁樣setup岩岩好用得曬D VRAM:呢到用48W idle係因為我插左個EDID emulator上隻GPU到
VPN
最後就係公司駁返部server。
呢個唔難,用Tailscale或Wireguard就得。反而係說服你公司infra可能較麻煩