Hardware pro provoz lokálního LLM

a6b

  • ***
  • 198
    • Zobrazit profil
    • E-mail
Hardware pro provoz lokálního LLM
« kdy: 04. 12. 2025, 23:45:41 »
uz jsem tu s tim tematem otravoval, tak jeste jednou.

chci nejaky hw na lokalni llm. mam asi takove poradi, ktere vykrystalizovalo podle ceny, zabavnosti, uzitecnosti apod.

1) amd gpu rx 9070 s 16gb vram
2) mac mini s m4
3) rtx 5080 s 16gb vram


ja.

  • ****
  • 388
    • Zobrazit profil
    • E-mail
Re:znovu hw pro lokalni ai
« Odpověď #1 kdy: Dnes v 00:42:09 »
Zavisi od toho, aky je rozpocet a co su priority. Ci LLM, alebo "ine veci". A ked LLM, ci schopnost spustit vacsie modely pomaly, alebo mensie modely rychlejsie.

1. AMD: existuje aj o generaciu starsi model, 7900XTX. Ten ma 24 GB RAM. V LLM bude vykonnejsi ako 9070. V "inych oblastiach" ma 9070 vyhodu, ze vie FSR4 (=> ma int4), vylepseny path tracing a nevyhodu, ze hruby vykon je o chlp nizsi ako 7900. Pri LLM na vyhodach 9070 nezalezi.

1b. AMD: moznost pustat velke modely pomalsie prinasa Ryzen AI Max+ 395. Na trhu su mini pocitace s tymto SoC a 128 GB RAM. RAM je mozne dynamicky alokovat medzi CPU a GPU, napr. 16 GB pre CPU a 112 pre GPU.

Celkovo AMD: nie je podporovana CUDA. Rozlicne LLM runtime, ako llama.cpp alebo ollama maju rozlicnu uroven podpory ci uz ROCm alebo idu cez Vulkan. Pytorch - vybrane verzie - vie bezat s ROCm. AMD tiez ma podporu systemov pre ROCm aku ma (napr. aktualny ROCm 7.1.1 funguje v Linuxe, vo Windowse nativne iba s pythonom 3.12, ale vo WSL iba starsi 6.4.4, ktoremu chyba podpora pre novsie chipsety). S AMD sa treba trocha pohrat, aby sa to rozbehlo, nejde to tak celkom OOB.

2. Mac mini s kolko RAM? Tam je situacia podobna ako s APU od AMD.

3. Nvidia: existuje 5090, ktore maju 32 GB RAM. A potom sa samozrejme mozme posunut - ak to dovoli rozpocet - do oblasti RTX PRO 6000 Blackwell, ktore su vo verziach 48 a 96 GB RAM.

Re:Hardware pro provoz lokálního LLM
« Odpověď #2 kdy: Dnes v 13:30:36 »

doplnění k mac mini, ten má až 32 GB ram a zanedlouho by mělo být možné jich více propojit přes thunderbolt a využít jako výpočetní cluster pro AI. Výkon je ale slabý.

Mac ještě nabízí mac pro, tam mám třeba variantu s 256 GB ram, což je naprostý luxus, spustím tam skoro jakýkoliv model, ale zase to je spíše na debugování, ověřování, není to na produkci, výkon není kdovíjak dobrý a nelze snadno řídit cluster více maců (ikdyž to by asi šlo dodělat nějak).

a6b

  • ***
  • 198
    • Zobrazit profil
    • E-mail
Re:Hardware pro provoz lokálního LLM
« Odpověď #3 kdy: Dnes v 13:41:31 »

doplnění k mac mini, ten má až 32 GB ram a zanedlouho by mělo být možné jich více propojit přes thunderbolt a využít jako výpočetní cluster pro AI. Výkon je ale slabý.

Mac ještě nabízí mac pro, tam mám třeba variantu s 256 GB ram, což je naprostý luxus, spustím tam skoro jakýkoliv model, ale zase to je spíše na debugování, ověřování, není to na produkci, výkon není kdovíjak dobrý a nelze snadno řídit cluster více maců (ikdyž to by asi šlo dodělat nějak).

nad notebookem mac pro jsem taky premyslel, ale asi pujdu levnejsi cestou nejake graficke karty kolem 20k.

Re:Hardware pro provoz lokálního LLM
« Odpověď #4 kdy: Dnes v 20:39:04 »
Jestli uz (rozumny) pocitac mas, tak asi levnejsi jen dokoupit grafickou kartu.
Jestli ne, asi bych premyslel nad Mac Mini M4, ale ve variante Pro (vetsi propustnost RAM), idealne s 48GB RAM. Ale to je samozrejme 50k+, ne 20 ::)


Re:Hardware pro provoz lokálního LLM
« Odpověď #5 kdy: Dnes v 22:29:34 »
Já se bude také opakovat. Chtělo by to vědět alespoň přibližně, jak velký jazykový model chcete provozovat.

Do 16GB VRAM GPU se vejde jazykový model o velikost asi 12GB, podle kvantizace (4-8 bit) 20B-10B parametrů. Odpověď se bude vypisovat velmi rychle. Pokud část poběží v RAM, bude to dost pomalé. Záleží na přenosové rychlosti paměti RAM.
Můžete použít grafiku s větší VRAM nebo dvě grafiky. Je dobré se také podívat na elektrický příkon (jak výkonný zdroj vyžaduje) a na přenosovou rychlost VRAM, která napoví, jak rychle se bude tvořit odpověď.

Také záleží na softwaru, Llama.cpp je vhodná pro jednu grafiku nebo ve spojení s CPU. VLLM nebo SGlang dokáží lépe využít více grafických karet.