Lokální LLM AI moduly

Jigdo · « **kdy:** 04. 02. 2025, 21:38:55 »

S temi LLM moduly se v posledni dobe vysypal pytel

a mne pripada ze provozovat to "lokalne" dava smysl,
nez krmit mojimi daty ty jejich ....cena hdd se dneska do sehnat 1TB za $9.99,
ale chapu ze je to hodne zavisle na velikosti vRAM/GPU ....

Pouziva tady nekdo nejake, lokalne na PC?

Jake a jak a na jakem HW?

Jedna nejmenovana Tel. firma, to pouziva
pro trideni podvodnych volani/spamu svym zakaznikum,
s velkym usechem, a jeste se jim podarilo je zmapovat jak pracuji ....
je nejaky takovy jazykovy modul k mani?

Chysta root.cz nejaky uvod do AI pro bezneho uzivatele?

Reklama

Wasper · « **Odpověď #1 kdy:** 04. 02. 2025, 22:36:11 »

Citace: Jigdo 04. 02. 2025, 21:38:55

S temi LLM moduly se v posledni dobe vysypal pytel
a mne pripada ze provozovat to "lokalne" dava smysl,
nez krmit mojimi daty ty jejich ....cena hdd se dneska do sehnat 1TB za $9.99,
ale chapu ze je to hodne zavisle na velikosti vRAM/GPU ....

Pouziva tady nekdo nejake, lokalne na PC?

Pouzivam "na hrani" ve volnych chvilich, 64GB Ram, 4060Ti/16GB VRam, i5-12600KF.

A nadavam u toho, je toho malo. Jak pameti, tak i VRAM, rozchodit nejaky model na tom je pruda neskutecna (treba ted posledni Janus-7B byl neskutecny opruz, sice accelerate umi offlodovat model z GPU do RAM/disku, ale presvedcit ho, ze Cuda:Out of memory neni spravny vystup dalo dost prace (a pri hledani na HF je par podobnych temat, bez odpovedi. tl;dr: musi se tomu omezit VRAM na 5GB, aby ji to nesezralo vic nez 14GB ;-) ) ale kdyz uz to clovek rozchodi, tak to funguje hezky. (zrovna toho Januse mam v planu zkusit pouzit na roztrideni fotek)

S HDD $9 za tera bacha, pokud se celej model nevejde do cache, tak plotnovej disk neni moc dobrej napad. Na stazeni modelu "pro pripad ze by je nekdo zakazal" je placka dobra, pro praci to chce SSD/NVMe.

Exceptions · « **Odpověď #2 kdy:** 04. 02. 2025, 22:42:36 »

ve firmě mám dost macbooků m2/m3 s 60 GB GPU RAM se tam dají rozchodit i ty velké modely, ale relativně pomalu, na ladění promptů ale dostatečné.

Na rozumnější testy máme desktop s 4 x A4000, relativně low cost řešení, ale vejdou se čtyři i do malé skříně a nepotřebují tak drahý HW, tam už běhají svižně ledajaké modely. Na produkci nebo trénování pak takové ty srandy za cenu fábie jeden kus nebo se dají za podobné ceny ročně pronajmout v cloudu.

Jigdo · « **Odpověď #3 kdy:** 25. 02. 2025, 13:12:40 »

Citace: Wasper 04. 02. 2025, 22:36:11

S HDD $9 za tera bacha, pokud se celej model nevejde do cache, tak plotnovej disk neni moc dobrej napad. Na stazeni modelu "pro pripad ze by je nekdo zakazal" je placka dobra, pro praci to chce SSD/NVMe.

Jasne ted to chapu, protoze to je neco noveho,
a ty LLM modely jsem vnimal jako "rainbow tables" .........

Lidi si stezuji na to jak je to spatne pro "soukromi" pouzivat ty AI on-line,
proc se vice nepise/nemluvi o modelech, ktere bude mozno provozovat lokalne (na PC/LAN) a
hlavne o tom, jestli a jak popripade ziskat tzv. Uncensored (AI) Model?
https://erichartford.com/uncensored-models

Da se nejak odstranit ten limit 384x384 pixelu z Janus Pro?

Jakub Štech · « **Odpověď #4 kdy:** 25. 02. 2025, 15:44:28 »

Jde to i jednoduše a spolehlivě. Jsou malé ale velmi dobré modely, a jde je provozovat bez starostí typu CUDA Out of Memory jak píše kolega. I na běžném herním hardwaru.

Typicky se nováčkům doporučuje nainstalovat si Ollama a moc se neptat jak co funguje, ale to úplně nedoporučuji: Ollama je vždy pozadu (je to jen wrapper kolem llama.cpp a dalších, trvá jim měsíc udělat git pull llama.cpp a pak se chlubit cizí prací), má vlastní proprietární storage podobný Dockeru, takže není úplně triviální třeba určit, které soubory patří ke kterému modelu, když je např. chcete odsunout na NAS, a hlavně skrývá před uživatelem všechny páky, kterými z toho jde dostat mnohem vyšší výkon.

"Moje" řešení je sestavit si Llama.cpp s Vulkan backendem, a provozovat to buď přímo, nebo přes swapping proxy. Vulkan oproti CUDA (nvidia) nebo ROCm (AMD) dosahuje nižšího výkonu (o 10-20 % horší), ale je to perfektně stabilní a řeší si to paměť automaticky, takže OOM crash jako kategorie problému prostě neexistuje. Když se rostoucí kontext nevejde do GPU, tak to nehavaruje, jen to zpomalí, protože driver přesouvá buffery mezi VRAM a RAM. Navíc jde měnit backend (Mesa RADV, AMD AMDVLK, ...) a tím třeba nějaký ten extra výkon nahnat, když je potřeba.

Takže jak na to :-)

1) Sestav si llama.cpp s Vulkan backendem.

Kód: [Vybrat]

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# SHARED_LIBS=OFF z toho udělá "semi-static" build: všechny llama.cpp knihovny se linkují staticky, dynamicky se linkují pouze
# systémové knihovny, takže výslednou binárku lze přesouvat, nezávisí na žádném dalším souboru z llama.cpp
cmake -B build -DGGML_VULKAN=1 -DCMAKE_BUILD_TYPE=Release -DBUILD_SHARED_LIBS=OFF

# uprav počet vláken pokud se na 128 instancí g++ necítíš :-)
cmake --build build --config Release -- -j128

2) Stáhni nějaký model, např. Phi 4 je super. Podle velikosti dostupné VRAM si vyber vhodnou kvantizaci: na stránce modelu (bartowski je legenda která dělá kvantizace prakticky všeho) je v tabulce srozumitelně popsáno, jak velký je který quant a co za kompromisy nese. Obecně současné modely fungují dobře s nějakými 5-6 bity na parametr, čemuž odpovídají quanty Q4_K_L až Q6_K_L (číslo říká počet bitů, K je typ kvantifikace, S/M/L je small/medium/large a rozlišují se tím mezistupně, kdy se např. kvantifikuje hlavní síť ale embedding síť se nechá ve větším rozlišení).

Případně si můžeš originální *.safetensors model kvantizovat sám, v llama.cpp je na to skript, je to na pár minut pokud se model vejde do RAM (v tomhle GPU nefiguruje).

Mám tady 16GB Radeon 7800XT, tak si volím Q5_K_M s 10.6 GiB velikostí. Kromě statického těla modelu (těch 10.6 G) se do VRAM ještě musí vejít kontext (KV cache), tedy text, na který model vidí. Ten postupně roste, a bývá docela prostorově náročný: každý token textu je (v každé attention head zvlášť) reprezentován dvěma embedding vektory (K pro "otázku", V pro "odpověď"). V případě Phi 4 má embedding vektor 5120 prvků, model má 40 attention heads, a je reprezentován datovým typem F16 (2 bajty). Jeden token má tedy 2 * 5120 * 40 * 2 = 819.2 KiB. V 16GB GPU mi ~11G zabere model, ~2G si chci nechat pro sebe, takže ~3G mám na kontext sotva 3800 tokenů. Pokud mi to nestačí, můžu zvolit menší quant (třeba Q4), snížit rozlišení KV cache, nebo se spokojím se zpomalením, až začne Vulkan swapovat.

Kód: [Vybrat]

cd ..
wget "https://huggingface.co/bartowski/phi-4-GGUF/resolve/main/phi-4-Q5_K_M.gguf?download=true" -O phi-4-Q5_K_M.gguf

3) Spustím jednu z mnoha llama- binárek. Pro první vyzkoušení že mi všechno funguje llama-cli, což je jednoduchý REPL v konzoli. Užitečné parametry jsou:

--ctx-size N omezí velikost kontextu na N tokenů systémem FIFO, tj. nejstarší tokeny začnou odtékat mimo context window
--n-gpu-layers N udává, kolik vrstev neuronové sítě chci přesunout do GPU. Zadáním vysokého čísla řeknu, že chci všechny. Modely mají typicky pár desítek vrstev.
--cache-type-k, --cache-type-v ovlivní datový typ KV cache. Default je f16, pro úsporu VRAM pro kontext můžu zvolit třeba q8_0 nebo q4_1, ale má to velký vliv na kvalitu výstupu i rychlost (pokud se na dané GPU netrefí alignment).

a dále parametry sampleru, které ovlivní chování modelu:

--temp N temperature, zvyšuje náhodnost; blíž k 0 pro technické úkoly, >1 pro prózu nebo ERP :-)
--top-k N omezí počet tokenů, co jdou do sampleru
--top-p N do sampleru půjdou jen tokeny, které mají v součtu tuto pravděpodobnost
--min-p N minimální pravděpodobnost tokenu

V praxi ale krom --n-gpu-layers nic z toho nenastavuju.

Kód: [Vybrat]

./llama.cpp/build/bin/llama-cli --n-gpu-layers 999 --model phi-4-Q5_K_M.gguf

V tuhle chvíli už chatuješ s lokálním LLM a nikdo tě nezastaví.

Další fáze je spustit OpenAI API server, aby jazykový model mohly využívat další aplikace. Jen spustíš jinou binárku:

Kód: [Vybrat]

./llama.cpp/build/bin/llama-server --n-gpu-layers 999 --model phi-4-Q5_K_M.gguf --port 12345

a za pár sekund můžeš prohlížečem na http://localhost:12345/ do celkem slušného webového chatu, který si pamatuje předchozí konverzace v localStorage. Na tuto URL můžeš nasměrovat i další aplikace, protože tam je endpoint kompatibilní s OpenAI API.

Z aplikací, které používám, jsou to:

- https://openwebui.com/ - asi nejznámější webové rozhraní pro LLM, integruje pěkně vektorové databáze a agentickou práci, takže umí např. úlohy jako "najdi mi v tomhle PDF jak se konfiguruje baud rate na USART" nebo udělá ozdrojovanou rešerši vyhledáváním na webu
- https://www.librechat.ai/ - podobné jako Open WebUI, ale umí to pěkně "Artifacts", tj. necháš LLM něco programovat a hned vidíš výsledek v okně... web, webGL, atd.
- smartcat nebo shell_gpt v konzoli, na úlohy typu man ffmpeg | sc sh "convert all videos to h265 and opus, normalize audio in two passes, fix subtitle encoding using iconv"
- automatické klasifikátory v aplikacích typu Hoarder, Linkwarden
- programování v Neovimu s CodeCompanionem
- AI v novém firefoxu, všechny ty kontextové úlohy typu "vysvětli mi toto" nebo "přelož to"

Praktické je před llama-server posadit llama-swap, což je OpenAI API proxy, která automaticky spustí příslušný llama-server v závislosti na tom, co si klient vybere. Jednak mi potom nesedí v GPU něco, co zrovna nevyužívám, a jednak můžu mít nakonfigurovánu spustu modelů, od malých data minerů (třeba nuextract je super na "tady máš pět let e-mailů, udělej mi z nich CSV s těmito sloupci: ...") přes specialisty na programování (Qwen Coder 2.5) až po větší generalisty (Phi 4, Mistral Small, v EU nelegální Llama 3.3).

Reklama

Jakub Štech · « **Odpověď #5 kdy:** 25. 02. 2025, 15:47:44 »

Fungujeme takhle už víc jak rok, s výše uvedeným postupem mi Phi 4 Q6 a Mistral Small Q4 běhají rychlostmi v desítkách slov za sekundu, v rychlosti nepoznám rozdíl oproti třeba GPT 4o. Z komerčních AI služeb používáme už jen Anthropic Claude Sonnet, protože ten je pořád naprosto bezkonkurenční na vývoj softwaru. Ne programování, na to stačí lokální modely, ale na tu architekturální designovou práci (v Aideru se systémem --architect vs --editor, kde velký model říká menšímu, co má dělat).

Ħαℓ₸℮ℵ ␏⫢ ⦚ · « **Odpověď #6 kdy:** 25. 02. 2025, 16:25:57 »

Citace: Jigdo 04. 02. 2025, 21:38:55

Jedna nejmenovana Tel. firma, to pouziva
pro trideni podvodnych volani/spamu svym zakaznikum,
s velkym usechem, a jeste se jim podarilo je zmapovat jak pracuji ....

Mimochodem, podepsal jsi si nějaký souhlas s zpracováním údajů nebo tě o vytěžování informovali? Znamená to, že se k nim dostane transcript hovoru nebo nějaké collating / korelující metadata ?

Týká se to zákazníku na paušál nebo i na kredit? Je to opt-in nebo opt out

Chci začít, ale jsem vtomhle jak v španělské vesnici prvně. A ujasnil bych si, zda jde o trénink nebo nasazení dat.
ALe snad hw mám nakročeno správně, AMD vulkan, s NPU, ale integrovaným RDNA, 64GB DDR5 RAM.

Citace: Wasper 04. 02. 2025, 22:36:11

RAM,VRAM,...

1 . to vypadá nadějně, ale jak je tohle realizovatelné, když mám IGPU (78GB/s) a taktéž 64GB RAM?

2. Třeba, jak moc je nutná podmínka mít NPU?(to mám v procesoru)

3. jak moc je to náročné na cold storage? (Disk) - zajímá mě místo.

Zdenek Henek · « **Odpověď #7 kdy:** 25. 02. 2025, 19:14:51 »

Citace: Jigdo 04. 02. 2025, 21:38:55

S temi LLM moduly se v posledni dobe vysypal pytel
a mne pripada ze provozovat to "lokalne" dava smysl,
nez krmit mojimi daty ty jejich ....cena hdd se dneska do sehnat 1TB za $9.99,
ale chapu ze je to hodne zavisle na velikosti vRAM/GPU ....

Pouziva tady nekdo nejake, lokalne na PC?

Jake a jak a na jakem HW?

Jedna nejmenovana Tel. firma, to pouziva
pro trideni podvodnych volani/spamu svym zakaznikum,
s velkym usechem, a jeste se jim podarilo je zmapovat jak pracuji ....
je nejaky takovy jazykovy modul k mani?

Chysta root.cz nejaky uvod do AI pro bezneho uzivatele?

Pokud si chces jen ty volne modely vyzkouset, tak to nemusis instalovat na svuj pocitac.

https://groq.com/ - neplest si GroK

Je tam k dispozici nekolik modelu na vyzkokuseni. Tak se da poznat, jestli je model, ktery chces zkust lokalne dost dobry, nebo az to cele nainstalujes, tak zjistis, ze nejen ze je to pomale, ono to ani nedela co jsi cekal ...

Wangarad · « **Odpověď #8 kdy:** 26. 02. 2025, 09:40:03 »

Toto ma zaujalo. Existuje vobec "rychly" a maly model pre dajme tomu len 6GB grafiku alebo to vobec nema zmysel?

r223 · « **Odpověď #9 kdy:** 26. 02. 2025, 11:36:03 »

Nezkousel to nekdo s GPU typu Tesla V100/P100 a pod?
Jdou docela levne koupit, a to i s velkou HBM. Bude tam ale min. omezeni na starsi verze CUDA.

Jan Forman · « **Odpověď #10 kdy:** 26. 02. 2025, 17:30:39 »

64GB RAM a 8GB VRAM se dá používat, ale spíš jen na běh už existujícího modelu.
Llama 3 8B, DeepSeek R1 14B nebo Mistral odezvy dle výkonu GPU cca 5-40sekund

Citace: Wangarad 26. 02. 2025, 09:40:03

Toto ma zaujalo. Existuje vobec "rychly" a maly model pre dajme tomu len 6GB grafiku alebo to vobec nema zmysel?

Lokální LLM AI moduly

Jigdo

Lokální LLM AI moduly

Reklama

Wasper

Re:Lokální LLM AI moduly

Exceptions

Re:Lokální LLM AI moduly

Jigdo

Re:Lokální LLM AI moduly

Jakub Štech

Re:Lokální LLM AI moduly

Reklama

Jakub Štech

Re:Lokální LLM AI moduly

Ħαℓ₸℮ℵ ␏⫢ ⦚

Re:Lokální LLM AI moduly s integrovanou GPU+VRAM

Zdenek Henek

Re:Lokální LLM AI moduly

Wangarad

Re:Lokální LLM AI moduly

r223

Re:Lokální LLM AI moduly

Jan Forman

Re:Lokální LLM AI moduly