Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - ladislav.danis

Stran: [1]
1
Hardware / Re:Hardware pro provoz lokálního LLM
« kdy: 08. 12. 2025, 18:40:17 »
K jakým účelům používáte lokální LLM? Pokud jde jen o to ušetřit 20 nebo 30$, tak to odpovídat nemusíte. Díky
Podle mě lokálním LLM, pokud nemáte z nějakého důvodu nevyužitý nadupaný HW jehož cenu nepočítáte, nejde ušetřit ani těch $20. Tyhle malé modely typicky stojí tak $0.5 za milion výstupních tokenů. I kdyby vám to generovalo 50 tokenů za sekundu (diskutující výše má 7 tokenů za sekundu na slabším HW), tak pro těch $20 měsíčně by to muselo běžet 8 hodin v kuse každý den.

Podle mě jediným reálným důvodem může být paranoia / obecně zdráhavost posílat data někam do cloudu.

Jen si dovolím upřesnit můj případ a použití.

Jak jsem již psal, generování mám 7T/s čtení 160T/s (to jsem zapomněl uvést).

Programuji převážně v jazyce Python a rozděluji moduly cca po 200 řádcích PEP8 na soubor.

Když mám hotovo, nechám lokální LLM zkontrolovat celý projekt na několik kol, takže vstupní tokeny jsou enormní. Výstupních moc není. Mám to cca 90/10 .

Jelikož API je bezstavové, tak odesíláním kontextu není problém spotřebovat předplacené tokeny, to se mi u lokálního LLM nestane.

Malé modely sice nejsou tak chytré, ale na můj konkrétní způsob použití se hodí.

Používám aider.chat převážně v módu /ask pro konzultace a /code pro generování testů a komentářů. (Dokumentace mě nikdy moc nebavila i když tou by se vlastně mělo začínat)

Souhlasím s tvrzením, že pro všeobecné použití a chat se lokální LLM nehodí.

2
Hardware / Re:Hardware pro provoz lokálního LLM
« kdy: 06. 12. 2025, 08:37:35 »
@ladislav.danis , odpusťte lamí dotaz: jestli správně chápu, Qwen3-coder publikovaný v rámci frameworku/projektu Unsloth.ai je hotový naučený model na bázi llama.cpp, který stáhnete z internetu a lokálně spustíte v režimu "inference", je to tak?

Ano, chápete to správně. LLama.cpp si ho umí i v rámci příkazu stáhnout sama, ale z důvodu používání příkazu jako službu systemd mám zadán model cestou k souboru.

3
Hardware / Re:Hardware pro provoz lokálního LLM
« kdy: 06. 12. 2025, 07:47:32 »
Dnes při správném modelu i konfiguraci lze použít i zdánlivý šrot.

Na mém starém Dell OptiPlex Sff 3050
Intel(R) Core(TM) i5-7500 CPU @ 3,40 GHz
64 GB RAM DDR4
Tesla P4 8 GB VRAM

s příkazem:
llama-server \
--model /home/testbox/.cache/llama.cpp/unsloth_Qwen3-Coder-30B-A3B-Instruct-GGUF_Qwen3-Coder-30B-A3B-Instruct-UD-Q8_K_XL.gguf \
--threads 3 \
--batch-size 384 \
--ctx-size 40960 \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
--jinja \
--temp 0.7 --min-p 0.01 --top-p 0.80 --top-k 20 --repeat-penalty 1.05 \
--flash-attn on \
-a qwen3-coder-30-a3b-p4 \
--n-gpu-layers 48 \
--override-tensor ".blk.([1-9]|[1-3][0-9]|4[0-6]).ffn_._exps.*=CPU" \
--host 0.0.0.0 \
--port 4000

konzistentně dosahuje krásných přibližně 7 t/s

Kdybych neměl kvůli velikosti RAM snížený duální kanál (můj DELL oficiálně podporuje 32 GB RAM), věřím, že výsledek by byl ještě lepší.

Používám to jako konzultanta při programování pro opravu chyb z nepozornosti.

Záleží na tom, co od toho člověk očekává. Na speciální účely se lokální LLM hodí, ale pro takové to ChatGPT tlachání je to marná investice.

Stran: [1]