Lokální AI modely pro citlivá data

XMen · « **kdy:** 03. 06. 2026, 10:05:28 »

Zdravim. Chcem sa spytat, ci niekto nemate skusenosti s pouzitim mensich lokalnych AI modelov, ktore by ste prevadzkovali na nejakych lokalnych strojoch mensieho vykonu (napr. aj na pracovnych notebookoch). Ide o to, ze pracujem na projekte, ktory pouziva senzitivne data a rovnako obsahuje vela senzitivnych informacii (api, dokumentacia,...), ktore si netrufam zverejnovat cez klasicke AI modely ako gemini alebo claude. Chcel by som ale vyuzit ich vyhod a skusit vytvorit AI assistenta pri programovani. Otazka teda je, ci to ma zmysel a ci je to realizovatelne alebo by vystup takej AI bol velmi slaby a nepresny, zeby sa mi neoplatilo nad tym vobec uvazovat. Ano, chapem, ze plnohodnotne AI funguju na neskutocne vykonnych strojoch ale ako vravim, nemozem im doverovat a zverit data na analyzu, lebo nikto mi nevie garantovat co sa s nimi robi (rovnaky problem mam aj s cloud systemami).

Reklama

Jiri Dobry · « **Odpověď #1 kdy:** 03. 06. 2026, 11:30:37 »

Možností je více, ale pro lokální AI zaměřenou na programování je potřeba sáhnout poměrně hluboko do kapsy. Pro seriózní použití dávají smysl modely alespoň kolem 30 miliard parametrů. Menší modely sice mohou být použitelné pro jednodušší úlohy, ale při složitějším programování, práci s většími projekty nebo delším kontextem jejich limity rychle narazíte.

Tomu musí odpovídat i hardware. Pro modely kolem 30B parametrů ještě může stačit výkonná grafická karta s 24-32 GB VRAM. Pro větší modely už je zpravidla potřeba výrazně více paměti. Minimem je například zařízení typu NVIDIA DGX Spark se 128 GB sjednocené paměti, případně některý z výkonnějších počítačů Apple s čipem řady M4/M5 a alespoň 128 GB RAM. Je však potřeba počítat s tím, že při využití systémové paměti místo VRAM bude výkon znatelně nižší.

Rozumná vstupní investice začíná přibližně na 120 000 Kč, a i za tuto částku jde spíše o základní konfiguraci s určitými omezeními. Pokud chcete provozovat větší modely pohodlně, náklady mohou být výrazně vyšší.

Proto je první otázkou, na jakém hardwaru to chcete provozovat. Teprve podle toho má smysl řešit výběr konkrétního modelu a způsob nasazení. Alternativou je pronájem výpočetního výkonu v cloudu nebo primo konkretni stroj pres vast.ai . To může být vhodné pro testování nebo občasné použití, ale neřeší to hlavní důvod, proč mnoho lidí o lokálním provozu uvažuje: práci s citlivými daty, zdrojovými kódy nebo interní dokumentací, které nechtějí odesílat třetí straně.

XMen · « **Odpověď #2 kdy:** 03. 06. 2026, 11:55:05 »

Ano mate pravdu a v zasade mi citate myslienky

Ono je otazka ci ma niekto skusenosti aj s mensimi modelmi (kludne pod 30B) a ci to ma vobec zmysel ich riesit. Alebo potom je otazka navrhnut si HW, ktory by bol este cenovo akceptovatelny. Ano chapem to je relativny pojem a pre kazdeho je miera cenovej akceptovatelnosti rozna. Bavme sa teda, ze ide o situaciu kde chce nieco taketo riesit jeden clovek (napr. zivnostnik), co sa dostal k projektu, ktory potrebuje takto riesit, pricom zakaznik mu nie je schopny poskytnut vykonny HW resp. nejake AI riesenie.

Co sa tyka cloudu, tam ste si odpovedal sam a presne to takto vidim aj ja.

XMen · « **Odpověď #3 kdy:** 03. 06. 2026, 11:58:06 »

Este mi tiez napadlo, neexistuje nejaky sposob ako velkost modelu (a teda jeho schopnosti) obmedzit iba na vybrane oblasti? Napr. programovanie v javascripte, pythone, java ale napr. nepotrebujem .NET, nepotrebujem psychoporadnu,.... Myslim, ze kedysi sa robieval trening AI modelu inym vykonnejsim AI modelom s vyuzitim obmedzenia oblasti, ktore ma zvladat.

RDa · « **Odpověď #4 kdy:** 03. 06. 2026, 12:30:47 »

Problem vykonneho hw lze vyresit sdilenim/centralizaci vypocetniho uzlu ktery je stale pod vlastni kontrolou (coz je tak nejak i vhodne, protoze tenky klient v podobe notebooku typicky neutahne zadny rozumny AI model - ani kdyz propaguje xyz NPU cicovin.. tak ty jsou nepouzitelne v tomto objemu / na genericke uziti v llm).

A ten subset by me zajimal taky - treba bych rad kdyby muj LLM slice vedel zas vsechno o HDL a klasicke programovani ci znalosti o biologii, zemepisu a jinych blbosti neresil. Zrejme by to vyzadovalo in-house trenovani a to je otazka kde prijit k nejakemu dobremu zdroji.. muzete mit mirror z github projektu, ale pak treba skeny knizek a ucebnic - by zas vyzadovali tu druhou pulku mozku, co pochopi i psanej text, zejo.

Reklama

Jan Forman · « **Odpověď #5 kdy:** 03. 06. 2026, 17:51:44 »

Qwen, Nemotron a nebo Gemma jsou celkem použitelné okolo velikosti 30B. Provozovat je lze na relativně slabém hardware pokud jsou to MoE verze stačí i běžná GPU s 16GB VRAM a nebo starší server s mnoha jádry. Výkon je cca 50 tokenů za sekundu na consumer hardware.

_Jenda · « **Odpověď #6 kdy:** 03. 06. 2026, 18:55:00 »

Citace: XMen 03. 06. 2026, 10:05:28

Otazka teda je, ci to ma zmysel a ci je to realizovatelne alebo by vystup takej AI bol velmi slaby a nepresny, zeby sa mi neoplatilo nad tym vobec uvazovat.

Vždyť si to můžeš vyzkoušet, téměř bez vstupních nákladů. Spousta modelů, které připadají v úvahu (příklad), je dostupná na OpenRouteru hostovaná západními společnostmi s cenami pod dolar za milion tokenů. Gemma 4 je dokonce pro všechny s Google účtem (i osobním) zdarma s dost velkými limity. Nabij si pár dolarů na OpenRouter a zkus si s tím programovat (určitě máš i nějaké projekty, co nejsou tak tajné, a můžeš si to na nich vyzkoušet). Takto si vyzkoušíš, jestli to dává smysl, jaké modely ti vyhovují, a pak si podle toho koupíš správný HW pro lokální provoz. Kromě zjevného řešení s GPU jsou populární nějaké Macy, ale nezkoušel jsem.

Citace: Jan Forman 03. 06. 2026, 17:51:44

pokud jsou to MoE verze stačí i běžná GPU s 16GB VRAM

To bude nějaká Q3, ne? To už bych se bál že bude výrazně hloupější.

XMen · « **Odpověď #7 kdy:** 03. 06. 2026, 19:31:06 »

Citace: _Jenda 03. 06. 2026, 18:55:00

Kromě zjevného řešení s GPU jsou populární nějaké Macy, ale nezkoušel jsem.

No tazka ci su Macy dostatocne dobre na to aby to zvladali alebo radsej sa pozerat po nejakej zostave s vykonnou GPU? Znovu je to teda otazka na pomer cena/vykon.

a6b · « **Odpověď #8 kdy:** 04. 06. 2026, 05:23:32 »

maca bych si poridil na lokalni llm, ale zatim furt zjistuju zda grafarna nvidia s dostatkem pameti je lepsi varianta.

jsem zvedav jake budou notebooky s nvidia n1x a pozdeji s rtx spark.
ja asi pujdu do maca se sdilenou pameti.

luvar · « **Odpověď #9 kdy:** 04. 06. 2026, 07:16:08 »

Citace: XMen 03. 06. 2026, 11:58:06

Este mi tiez napadlo, neexistuje nejaky sposob ako velkost modelu (a teda jeho schopnosti) obmedzit iba na vybrane oblasti? Napr. programovanie v javascripte, pythone, java ale napr. nepotrebujem .NET, nepotrebujem psychoporadnu,.... Myslim, ze kedysi sa robieval trening AI modelu inym vykonnejsim AI modelom s vyuzitim obmedzenia oblasti, ktore ma zvladat.

Niekde som zachytil uveriteľnú hypotézu, že obmedziť LLM model na nejaký jazyk a mať vysokú kvalitu vpodstate neušetrí nič, lebo pri využívaní modelu nám pomáhajú znalosti mimo jazyku. Či už poviem ruby on rails, že má rešpektovať X-Forwarded-For header (a potrebuje rfc headeru poznať, poznať http protokol, poznať teóriu okolo proxy a pre overenie potrebuje poznať curl, postman, alebo podobne), alebo, že chcem web formulár na zadanie faktúry (potrebuje aspoň vyhalucinovať potrebné fieldy pre naše zákon,. Ičo, dič, adresa, majiteľ, bankové spojenie,... Potrebuje ukážku hodnoty každého políčka, aby to tam tím šedým fontom predvyplnil a iné ukážky s okrajovými prípadmi pre napísanie testov, ...)...

Proste programovanie, syntax jedného jazyka, je málo znalostí. Čo zaberá miesto, je znalosť sveta. Frameworky, nástroje, ľudský jazyk, business knowledge a podobne.

Ja tomu vcelku verím a moja skúsenosť s menšími jazykmi je taká, že stačí 32GB ram, nejaké rozumné 8 jadro cpu aspoň a (to najdôležitejšie), dobre odladený prompt/postup, ktorý dobre funguje na konkrétnu úlohu. Následne má zmysel tú úlohu púšťať dookola a za asi desatinovú cenu oproti "cloudu". Toto je aktuálne jediné zmysluplné využitie lokálnej LLM. Opakovateľná úloha, ktorá má zmysel a je odladená.

Pre použitie na ad-hoc úlohy malý model IMHO nemá zmysel.

Ink · « **Odpověď #10 kdy:** 04. 06. 2026, 08:47:19 »

Citace: luvar 04. 06. 2026, 07:16:08

Ja tomu vcelku verím a moja skúsenosť s menšími jazykmi je taká, že stačí 32GB ram, nejaké rozumné 8 jadro cpu aspoň a (to najdôležitejšie), dobre odladený prompt/postup, ktorý dobre funguje na konkrétnu úlohu. Následne má zmysel tú úlohu púšťať dookola a za asi desatinovú cenu oproti "cloudu". Toto je aktuálne jediné zmysluplné využitie lokálnej LLM. Opakovateľná úloha, ktorá má zmysel a je odladená.

A není pak lepší nechat ten velký LLM vytvořit nějaký skript a pak ho jen opakovaně spouštět?

Zopper · « **Odpověď #11 kdy:** 05. 06. 2026, 07:09:25 »

Citace: Ink 04. 06. 2026, 08:47:19

A není pak lepší nechat ten velký LLM vytvořit nějaký skript a pak ho jen opakovaně spouštět?

Jsou úlohy, kde to prostě neuděláš, nebo se to nevyplatí. LLM si velmi dobře poradí s fuzzy vstupem, zatímco ten skript se ti velmi snadno rozbije, jakmile je něco trošku jinak. Takže pokud je to třeba něco, co pouštíš jednou týdně, ta LLM to zvládá (a když náhodou něco dost podělá, tak to můžeš detekovat a pustit znovu), zatímco skript budeš každý druhý týden opravovat...

Citace: XMen 03. 06. 2026, 19:31:06

No tazka ci su Macy dostatocne dobre na to aby to zvladali alebo radsej sa pozerat po nejakej zostave s vykonnou GPU? Znovu je to teda otazka na pomer cena/vykon.

V určitém rozsahu ten Mac vyjde výrazně lépe, protože pro typicky potřebuješ co nejvíc VRAM a GPU s velkou VRAM jsou teď extra drahé. Například 48GB Mac Mini se sdílenou pamětí stojí na Alze co, 60k? Zatímco AI akcelerátor s obdobně velkou VRAM seženeš tak za dvojnásobek a víc (hráčskou GPU neseženeš vůbec) a k tomu musíš koupit ještě zbytek serveru. (Nebo budeš mít za stejnou cenu jen poloviční VRAM.) U toho Macu sice nebudeš mít takovou rychlost výpočtů, ale vleze se ti tam ten větší a schopnější model za mnohem menší cenu. Plus, pokud to máš na always-on domácí šolíchání a sedí ti to hromadu času v idle, tak ten rozdíl ve spotřebě mezi Mac Mini a big tower se taky projeví.

noob · « **Odpověď #12 kdy:** 05. 06. 2026, 12:59:42 »

Záleží na použití.

Z vlastní zkušenosti s Mac mini M4 / 24GB RAM, vyhrazeným pouze na hrátky s LLM:

- i starší RTX 3070 je několikanásobně rychlejší než M4 (ale taky žere 10x tolik elektřiny)

- je velký omyl myslet si, že když se model vejde do (V)RAM tak máte vyhráno - je potřeba počítat s místem pro kontextové okno. Čím delší vstup a složitější prompt, tím větší je potřeba.

- qwen 2.5-coder:14b dokáže v pohodě přepisovat několik set řádkové scripty (PHP, JS, html/css, python ...) - sežere i s rozumným kontextovým oknem 21GB RAM (systém je upravený aby umožnil Ollama démonu alokovat 90% RAM a nepoužívám GUI, takže 3GB pro OS stačí) - není to nejrychlejší, ale vezme si při práci 20W a běží nonstop

- použití lokálního LLM jako agenta je dost problém kvůli potřebné velikosti kontextu a taky je (pro smyslupnou práci) nutné mít chytřejší model - třeba qwen 3.5-agent:latest - tady už 24GB nestačí a hodil by se dvojnásobek (model se při rozumné kvantizaci rozjel, ale neměl dost místa pro kontext a brzo začal halucinovat).

- Hloupější LLM zpravidla neumí používat nástroje - tady vidím největší omezení - například si nic nedohledá na webu, neověří výstup kódu atd. Zatímco třeba Claude už umí ladit scripty přes Chrome DevTools

Teď zkouším nějakou netriviální práci s texty a tvorbu jednoduchých scriptů - tam 24GB sdílené RAM není na překážku. Za 20k Kč na hraní ideál - malá krabička hozená pod stolem, není slyšet a skoro netočí elektroměrem a slouží jako LLM backend pro aplikace běžící někde na VPS

Pro kompletně lokální vývoj bych potřeboval tak 128GB RAM a o kus rychlejší procesor, ale to už je úplně jiná cena za HW.

Pokud nechci pustit cloudový LLM ke kódu - teoreticky se dá použít třeba Claude jako plánovač a agent pro nástroje + lokální model jako kodér a tím odklonit Claude od kódu. (A jako bonus ušetřit spoustu tokenů). Ale je potřeba použít vhodný plugin (ve VSCode možná Roo Coder) a hlavně ho správně nastavit. Tam bych ale raději vyměnil grafiku v PC za 16GB model a šel touto cestou.

boardshepherd · « **Odpověď #13 kdy:** 05. 06. 2026, 14:57:36 »

Citace: Ink 04. 06. 2026, 08:47:19

A není pak lepší nechat ten velký LLM vytvořit nějaký skript a pak ho jen opakovaně spouštět?

Ja napriklad použivvam lokalny LLM na získavanie inofmácií z faktúr. Veľa faktúr k nám chodí ešte na papieri a sú skenované. Tiež máme veľa roznych dodávateľov - roznych typov faktúr, takže použitie custom scriptov je zložité a nespolahlivé. Teraz fakútry ktoré ku nám chodia (okrem tých z XML prílohami) idú všetky cez LLM a automatikcy sa nahrávajú do systému, kde sú následne ešte skotrolované pracovníkom. Chybovosť je pod 5% a dokonca to nemá problém ani z ručne vypísaným faktúrami od drobných živnostníkov.

Najlepšie s mi zatiaľ osvecčili modely gemma4:26B alebo qwen3.6:35b. Beží to na AMD Ryzen AI Max+ 395 s 128GB RAM. Spracovanie jednej faktúry trvá medzi 30 - 60 sekund, čo nie je najrýchlejšie, ale pre moje účely to úplne stačí.

noob · « **Odpověď #14 kdy:** 05. 06. 2026, 20:15:01 »

Pro pobavení - jak přemýšlí lokální model qwen 2.5-coder (jinak celkem solidní, ale zjevně má trochu problém s češtinou)

Lokální AI modely pro citlivá data

XMen

Lokální AI modely pro citlivá data

Reklama

Jiri Dobry

Re:Lokální AI modely pro citlivá data

XMen

Re:Lokální AI modely pro citlivá data

XMen

Re:Lokální AI modely pro citlivá data

RDa

Re:Lokální AI modely pro citlivá data

Reklama

Jan Forman

Re:Lokální AI modely pro citlivá data

_Jenda

Re:Lokální AI modely pro citlivá data

XMen

Re:Lokální AI modely pro citlivá data

a6b

Re:Lokální AI modely pro citlivá data

luvar

Re:Lokální AI modely pro citlivá data

Ink

Re:Lokální AI modely pro citlivá data

Zopper

Re:Lokální AI modely pro citlivá data

noob

Re:Lokální AI modely pro citlivá data

boardshepherd

Re:Lokální AI modely pro citlivá data

noob

Re:Lokální AI modely pro citlivá data