Ja jsem o nasi zkusenosti s LLM napsal blog https://blog.e-infra.cz/blog/run-llm/. Pro jakesi info o cestine lze pouzit na huggingface leaderboard: https://huggingface.co/blog/benczechmark
Skvely clanek (btw i stylisticky)!
Trochu me to utvrdilo v tom ze pro experimentovani s ruznymi (hlavne velkymi) modely je asi lepsi pouzivat je z cloudu bud rovnou jako API nebo je jet na pronajatem cloud HW - a platit ciste jen za use.
V domacich podminkach se mozna "uzivi" vic male modely site na miru konkretnim use cases, ktere tim padem nezaberou tunu mista (disk, RAM/VRAM) a daji se rychleji stridat.
Ja napr. hodne pouzivam VoiceLink pro diktovani s lokalnim Parakeet modelem, nejsem tak zavisly na latenci site (u diktovani muze byt otravna), mam lepsi pocit "privatnosti" (

) a pritom mi to nezere 100% RAM.
Naopak v terminalu pouzivam
https://github.com/simonw/llm vzdycky kdyz si nemuzu vzpomenout na ten spravny prikaz (jo, nikdy jsem se poradne nenaucil sed, awk atd) a ten mam napojeny na OpenAI GPT5-nano pres jejich API. Spotrebovava to tak malo tokenu (jedna otazka/odpoved zlomky haliru, nepotrebuje to velky context) ze se to vyplati nejet lokalne.