2
Dnes při správném modelu i konfiguraci lze použít i zdánlivý šrot.
Na mém starém Dell OptiPlex Sff 3050
Intel(R) Core(TM) i5-7500 CPU @ 3,40 GHz
64 GB RAM DDR4
Tesla P4 8 GB VRAM
s příkazem:
llama-server \
--model /home/testbox/.cache/llama.cpp/unsloth_Qwen3-Coder-30B-A3B-Instruct-GGUF_Qwen3-Coder-30B-A3B-Instruct-UD-Q8_K_XL.gguf \
--threads 3 \
--batch-size 384 \
--ctx-size 40960 \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
--jinja \
--temp 0.7 --min-p 0.01 --top-p 0.80 --top-k 20 --repeat-penalty 1.05 \
--flash-attn on \
-a qwen3-coder-30-a3b-p4 \
--n-gpu-layers 48 \
--override-tensor ".blk.([1-9]|[1-3][0-9]|4[0-6]).ffn_._exps.*=CPU" \
--host 0.0.0.0 \
--port 4000
konzistentně dosahuje krásných přibližně 7 t/s
Kdybych neměl kvůli velikosti RAM snížený duální kanál (můj DELL oficiálně podporuje 32 GB RAM), věřím, že výsledek by byl ještě lepší.
Používám to jako konzultanta při programování pro opravu chyb z nepozornosti.
Záleží na tom, co od toho člověk očekává. Na speciální účely se lokální LLM hodí, ale pro takové to ChatGPT tlachání je to marná investice.