Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - ladislav.danis

Stran: [1]
1
Hardware / Re:Hardware pro provoz lokálního LLM
« kdy: Dnes v 08:37:35 »
@ladislav.danis , odpusťte lamí dotaz: jestli správně chápu, Qwen3-coder publikovaný v rámci frameworku/projektu Unsloth.ai je hotový naučený model na bázi llama.cpp, který stáhnete z internetu a lokálně spustíte v režimu "inference", je to tak?

Ano, chápete to správně. LLama.cpp si ho umí i v rámci příkazu stáhnout sama, ale z důvodu používání příkazu jako službu systemd mám zadán model cestou k souboru.

2
Hardware / Re:Hardware pro provoz lokálního LLM
« kdy: Dnes v 07:47:32 »
Dnes při správném modelu i konfiguraci lze použít i zdánlivý šrot.

Na mém starém Dell OptiPlex Sff 3050
Intel(R) Core(TM) i5-7500 CPU @ 3,40 GHz
64 GB RAM DDR4
Tesla P4 8 GB VRAM

s příkazem:
llama-server \
--model /home/testbox/.cache/llama.cpp/unsloth_Qwen3-Coder-30B-A3B-Instruct-GGUF_Qwen3-Coder-30B-A3B-Instruct-UD-Q8_K_XL.gguf \
--threads 3 \
--batch-size 384 \
--ctx-size 40960 \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
--jinja \
--temp 0.7 --min-p 0.01 --top-p 0.80 --top-k 20 --repeat-penalty 1.05 \
--flash-attn on \
-a qwen3-coder-30-a3b-p4 \
--n-gpu-layers 48 \
--override-tensor ".blk.([1-9]|[1-3][0-9]|4[0-6]).ffn_._exps.*=CPU" \
--host 0.0.0.0 \
--port 4000

konzistentně dosahuje krásných přibližně 7 t/s

Kdybych neměl kvůli velikosti RAM snížený duální kanál (můj DELL oficiálně podporuje 32 GB RAM), věřím, že výsledek by byl ještě lepší.

Používám to jako konzultanta při programování pro opravu chyb z nepozornosti.

Záleží na tom, co od toho člověk očekává. Na speciální účely se lokální LLM hodí, ale pro takové to ChatGPT tlachání je to marná investice.

Stran: [1]