Hardware pro provoz lokálního LLM

Re:Hardware pro provoz lokálního LLM
« Odpověď #15 kdy: 08. 12. 2025, 18:40:17 »
K jakým účelům používáte lokální LLM? Pokud jde jen o to ušetřit 20 nebo 30$, tak to odpovídat nemusíte. Díky
Podle mě lokálním LLM, pokud nemáte z nějakého důvodu nevyužitý nadupaný HW jehož cenu nepočítáte, nejde ušetřit ani těch $20. Tyhle malé modely typicky stojí tak $0.5 za milion výstupních tokenů. I kdyby vám to generovalo 50 tokenů za sekundu (diskutující výše má 7 tokenů za sekundu na slabším HW), tak pro těch $20 měsíčně by to muselo běžet 8 hodin v kuse každý den.

Podle mě jediným reálným důvodem může být paranoia / obecně zdráhavost posílat data někam do cloudu.

Jen si dovolím upřesnit můj případ a použití.

Jak jsem již psal, generování mám 7T/s čtení 160T/s (to jsem zapomněl uvést).

Programuji převážně v jazyce Python a rozděluji moduly cca po 200 řádcích PEP8 na soubor.

Když mám hotovo, nechám lokální LLM zkontrolovat celý projekt na několik kol, takže vstupní tokeny jsou enormní. Výstupních moc není. Mám to cca 90/10 .

Jelikož API je bezstavové, tak odesíláním kontextu není problém spotřebovat předplacené tokeny, to se mi u lokálního LLM nestane.

Malé modely sice nejsou tak chytré, ale na můj konkrétní způsob použití se hodí.

Používám aider.chat převážně v módu /ask pro konzultace a /code pro generování testů a komentářů. (Dokumentace mě nikdy moc nebavila i když tou by se vlastně mělo začínat)

Souhlasím s tvrzením, že pro všeobecné použití a chat se lokální LLM nehodí.