Fórum Root.cz
Hlavní témata => Software => Téma založeno: Jigdo 04. 02. 2025, 21:38:55
-
S temi LLM moduly se v posledni dobe vysypal pytel ;)
a mne pripada ze provozovat to "lokalne" dava smysl,
nez krmit mojimi daty ty jejich ....cena hdd se dneska do sehnat 1TB za $9.99,
ale chapu ze je to hodne zavisle na velikosti vRAM/GPU ....
Pouziva tady nekdo nejake, lokalne na PC?
Jake a jak a na jakem HW?
Jedna nejmenovana Tel. firma, to pouziva
pro trideni podvodnych volani/spamu svym zakaznikum,
s velkym usechem, a jeste se jim podarilo je zmapovat jak pracuji ....
je nejaky takovy jazykovy modul k mani?
Chysta root.cz nejaky uvod do AI pro bezneho uzivatele?
-
S temi LLM moduly se v posledni dobe vysypal pytel ;)
a mne pripada ze provozovat to "lokalne" dava smysl,
nez krmit mojimi daty ty jejich ....cena hdd se dneska do sehnat 1TB za $9.99,
ale chapu ze je to hodne zavisle na velikosti vRAM/GPU ....
Pouziva tady nekdo nejake, lokalne na PC?
Pouzivam "na hrani" ve volnych chvilich, 64GB Ram, 4060Ti/16GB VRam, i5-12600KF.
A nadavam u toho, je toho malo. Jak pameti, tak i VRAM, rozchodit nejaky model na tom je pruda neskutecna (treba ted posledni Janus-7B byl neskutecny opruz, sice accelerate umi offlodovat model z GPU do RAM/disku, ale presvedcit ho, ze Cuda:Out of memory neni spravny vystup dalo dost prace (a pri hledani na HF je par podobnych temat, bez odpovedi. tl;dr: musi se tomu omezit VRAM na 5GB, aby ji to nesezralo vic nez 14GB ;-) ) ale kdyz uz to clovek rozchodi, tak to funguje hezky. (zrovna toho Januse mam v planu zkusit pouzit na roztrideni fotek)
S HDD $9 za tera bacha, pokud se celej model nevejde do cache, tak plotnovej disk neni moc dobrej napad. Na stazeni modelu "pro pripad ze by je nekdo zakazal" je placka dobra, pro praci to chce SSD/NVMe.
-
ve firmě mám dost macbooků m2/m3 s 60 GB GPU RAM se tam dají rozchodit i ty velké modely, ale relativně pomalu, na ladění promptů ale dostatečné.
Na rozumnější testy máme desktop s 4 x A4000, relativně low cost řešení, ale vejdou se čtyři i do malé skříně a nepotřebují tak drahý HW, tam už běhají svižně ledajaké modely. Na produkci nebo trénování pak takové ty srandy za cenu fábie jeden kus nebo se dají za podobné ceny ročně pronajmout v cloudu.
-
S HDD $9 za tera bacha, pokud se celej model nevejde do cache, tak plotnovej disk neni moc dobrej napad. Na stazeni modelu "pro pripad ze by je nekdo zakazal" je placka dobra, pro praci to chce SSD/NVMe.
Jasne ted to chapu, protoze to je neco noveho,
a ty LLM modely jsem vnimal jako "rainbow tables" .........
Lidi si stezuji na to jak je to spatne pro "soukromi" pouzivat ty AI on-line,
proc se vice nepise/nemluvi o modelech, ktere bude mozno provozovat lokalne (na PC/LAN) a
hlavne o tom, jestli a jak popripade ziskat tzv. Uncensored (AI) Model?
https://erichartford.com/uncensored-models
Da se nejak odstranit ten limit 384x384 pixelu z Janus Pro?
-
Jde to i jednoduše a spolehlivě. Jsou malé ale velmi dobré modely, a jde je provozovat bez starostí typu CUDA Out of Memory jak píše kolega. I na běžném herním hardwaru.
Typicky se nováčkům doporučuje nainstalovat si Ollama a moc se neptat jak co funguje, ale to úplně nedoporučuji: Ollama je vždy pozadu (je to jen wrapper kolem llama.cpp a dalších, trvá jim měsíc udělat git pull llama.cpp a pak se chlubit cizí prací), má vlastní proprietární storage podobný Dockeru, takže není úplně triviální třeba určit, které soubory patří ke kterému modelu, když je např. chcete odsunout na NAS, a hlavně skrývá před uživatelem všechny páky, kterými z toho jde dostat mnohem vyšší výkon.
"Moje" řešení je sestavit si Llama.cpp s Vulkan backendem, a provozovat to buď přímo, nebo přes swapping proxy. Vulkan oproti CUDA (nvidia) nebo ROCm (AMD) dosahuje nižšího výkonu (o 10-20 % horší), ale je to perfektně stabilní a řeší si to paměť automaticky, takže OOM crash jako kategorie problému prostě neexistuje. Když se rostoucí kontext nevejde do GPU, tak to nehavaruje, jen to zpomalí, protože driver přesouvá buffery mezi VRAM a RAM. Navíc jde měnit backend (Mesa RADV, AMD AMDVLK, ...) a tím třeba nějaký ten extra výkon nahnat, když je potřeba.
Takže jak na to :-)
1) Sestav si llama.cpp s Vulkan backendem.
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# SHARED_LIBS=OFF z toho udělá "semi-static" build: všechny llama.cpp knihovny se linkují staticky, dynamicky se linkují pouze
# systémové knihovny, takže výslednou binárku lze přesouvat, nezávisí na žádném dalším souboru z llama.cpp
cmake -B build -DGGML_VULKAN=1 -DCMAKE_BUILD_TYPE=Release -DBUILD_SHARED_LIBS=OFF
# uprav počet vláken pokud se na 128 instancí g++ necítíš :-)
cmake --build build --config Release -- -j128
2) Stáhni nějaký model, např. Phi 4 je super. Podle velikosti dostupné VRAM si vyber vhodnou kvantizaci: na stránce modelu (https://huggingface.co/bartowski/phi-4-GGUF) (bartowski je legenda která dělá kvantizace prakticky všeho) je v tabulce srozumitelně popsáno, jak velký je který quant a co za kompromisy nese. Obecně současné modely fungují dobře s nějakými 5-6 bity na parametr, čemuž odpovídají quanty Q4_K_L až Q6_K_L (číslo říká počet bitů, K je typ kvantifikace, S/M/L je small/medium/large a rozlišují se tím mezistupně, kdy se např. kvantifikuje hlavní síť ale embedding síť se nechá ve větším rozlišení).
Případně si můžeš originální *.safetensors model kvantizovat sám, v llama.cpp je na to skript, je to na pár minut pokud se model vejde do RAM (v tomhle GPU nefiguruje).
Mám tady 16GB Radeon 7800XT, tak si volím Q5_K_M s 10.6 GiB velikostí. Kromě statického těla modelu (těch 10.6 G) se do VRAM ještě musí vejít kontext (KV cache), tedy text, na který model vidí. Ten postupně roste, a bývá docela prostorově náročný: každý token textu je (v každé attention head zvlášť) reprezentován dvěma embedding vektory (K pro "otázku", V pro "odpověď"). V případě Phi 4 má embedding vektor 5120 prvků, model má 40 attention heads, a je reprezentován datovým typem F16 (2 bajty). Jeden token má tedy 2 * 5120 * 40 * 2 = 819.2 KiB. V 16GB GPU mi ~11G zabere model, ~2G si chci nechat pro sebe, takže ~3G mám na kontext sotva 3800 tokenů. Pokud mi to nestačí, můžu zvolit menší quant (třeba Q4), snížit rozlišení KV cache, nebo se spokojím se zpomalením, až začne Vulkan swapovat.
cd ..
wget "https://huggingface.co/bartowski/phi-4-GGUF/resolve/main/phi-4-Q5_K_M.gguf?download=true" -O phi-4-Q5_K_M.gguf
3) Spustím jednu z mnoha llama- binárek. Pro první vyzkoušení že mi všechno funguje llama-cli, což je jednoduchý REPL v konzoli. Užitečné parametry jsou:
--ctx-size N omezí velikost kontextu na N tokenů systémem FIFO, tj. nejstarší tokeny začnou odtékat mimo context window
--n-gpu-layers N udává, kolik vrstev neuronové sítě chci přesunout do GPU. Zadáním vysokého čísla řeknu, že chci všechny. Modely mají typicky pár desítek vrstev.
--cache-type-k, --cache-type-v ovlivní datový typ KV cache. Default je f16, pro úsporu VRAM pro kontext můžu zvolit třeba q8_0 nebo q4_1, ale má to velký vliv na kvalitu výstupu i rychlost (pokud se na dané GPU netrefí alignment).
a dále parametry sampleru, které ovlivní chování modelu:
--temp N temperature, zvyšuje náhodnost; blíž k 0 pro technické úkoly, >1 pro prózu nebo ERP :-)
--top-k N omezí počet tokenů, co jdou do sampleru
--top-p N do sampleru půjdou jen tokeny, které mají v součtu tuto pravděpodobnost
--min-p N minimální pravděpodobnost tokenu
V praxi ale krom --n-gpu-layers nic z toho nenastavuju.
./llama.cpp/build/bin/llama-cli --n-gpu-layers 999 --model phi-4-Q5_K_M.gguf
V tuhle chvíli už chatuješ s lokálním LLM a nikdo tě nezastaví.
Další fáze je spustit OpenAI API server, aby jazykový model mohly využívat další aplikace. Jen spustíš jinou binárku:
./llama.cpp/build/bin/llama-server --n-gpu-layers 999 --model phi-4-Q5_K_M.gguf --port 12345
a za pár sekund můžeš prohlížečem na http://localhost:12345/ do celkem slušného webového chatu, který si pamatuje předchozí konverzace v localStorage. Na tuto URL můžeš nasměrovat i další aplikace, protože tam je endpoint kompatibilní s OpenAI API.
Z aplikací, které používám, jsou to:
- https://openwebui.com/ - asi nejznámější webové rozhraní pro LLM, integruje pěkně vektorové databáze a agentickou práci, takže umí např. úlohy jako "najdi mi v tomhle PDF jak se konfiguruje baud rate na USART" nebo udělá ozdrojovanou rešerši vyhledáváním na webu
- https://www.librechat.ai/ - podobné jako Open WebUI, ale umí to pěkně "Artifacts", tj. necháš LLM něco programovat a hned vidíš výsledek v okně... web, webGL, atd.
- smartcat nebo shell_gpt v konzoli, na úlohy typu man ffmpeg | sc sh "convert all videos to h265 and opus, normalize audio in two passes, fix subtitle encoding using iconv"
- automatické klasifikátory v aplikacích typu Hoarder, Linkwarden
- programování v Neovimu s CodeCompanionem (https://codecompanion.olimorris.dev/)
- AI v novém firefoxu, všechny ty kontextové úlohy typu "vysvětli mi toto" nebo "přelož to"
Praktické je před llama-server posadit llama-swap (https://github.com/mostlygeek/llama-swap), což je OpenAI API proxy, která automaticky spustí příslušný llama-server v závislosti na tom, co si klient vybere. Jednak mi potom nesedí v GPU něco, co zrovna nevyužívám, a jednak můžu mít nakonfigurovánu spustu modelů, od malých data minerů (třeba nuextract je super na "tady máš pět let e-mailů, udělej mi z nich CSV s těmito sloupci: ...") přes specialisty na programování (Qwen Coder 2.5) až po větší generalisty (Phi 4, Mistral Small, v EU nelegální Llama 3.3).
-
Fungujeme takhle už víc jak rok, s výše uvedeným postupem mi Phi 4 Q6 a Mistral Small Q4 běhají rychlostmi v desítkách slov za sekundu, v rychlosti nepoznám rozdíl oproti třeba GPT 4o. Z komerčních AI služeb používáme už jen Anthropic Claude Sonnet, protože ten je pořád naprosto bezkonkurenční na vývoj softwaru. Ne programování, na to stačí lokální modely, ale na tu architekturální designovou práci (v Aideru se systémem --architect vs --editor, kde velký model říká menšímu, co má dělat).
-
Jedna nejmenovana Tel. firma, to pouziva
pro trideni podvodnych volani/spamu svym zakaznikum,
s velkym usechem, a jeste se jim podarilo je zmapovat jak pracuji ....
Mimochodem, podepsal jsi si nějaký souhlas s zpracováním údajů nebo tě o vytěžování informovali? Znamená to, že se k nim dostane transcript hovoru nebo nějaké collating / korelující metadata ?
Týká se to zákazníku na paušál nebo i na kredit? Je to opt-in nebo opt out
Chci začít, ale jsem vtomhle jak v španělské vesnici prvně. A ujasnil bych si, zda jde o trénink nebo nasazení dat.
ALe snad hw mám nakročeno správně, AMD vulkan, s NPU, ale integrovaným RDNA, 64GB DDR5 RAM.
RAM,VRAM,...
1 . to vypadá nadějně, ale jak je tohle realizovatelné, když mám IGPU (78GB/s) a taktéž 64GB RAM?
2. Třeba, jak moc je nutná podmínka mít NPU?(to mám v procesoru)
3. jak moc je to náročné na cold storage? (Disk) - zajímá mě místo.
-
S temi LLM moduly se v posledni dobe vysypal pytel ;)
a mne pripada ze provozovat to "lokalne" dava smysl,
nez krmit mojimi daty ty jejich ....cena hdd se dneska do sehnat 1TB za $9.99,
ale chapu ze je to hodne zavisle na velikosti vRAM/GPU ....
Pouziva tady nekdo nejake, lokalne na PC?
Jake a jak a na jakem HW?
Jedna nejmenovana Tel. firma, to pouziva
pro trideni podvodnych volani/spamu svym zakaznikum,
s velkym usechem, a jeste se jim podarilo je zmapovat jak pracuji ....
je nejaky takovy jazykovy modul k mani?
Chysta root.cz nejaky uvod do AI pro bezneho uzivatele?
Pokud si chces jen ty volne modely vyzkouset, tak to nemusis instalovat na svuj pocitac.
https://groq.com/ - neplest si GroK
Je tam k dispozici nekolik modelu na vyzkokuseni. Tak se da poznat, jestli je model, ktery chces zkust lokalne dost dobry, nebo az to cele nainstalujes, tak zjistis, ze nejen ze je to pomale, ono to ani nedela co jsi cekal ...
-
Toto ma zaujalo. Existuje vobec "rychly" a maly model pre dajme tomu len 6GB grafiku alebo to vobec nema zmysel?
-
Nezkousel to nekdo s GPU typu Tesla V100/P100 a pod?
Jdou docela levne koupit, a to i s velkou HBM. Bude tam ale min. omezeni na starsi verze CUDA.
-
64GB RAM a 8GB VRAM se dá používat, ale spíš jen na běh už existujícího modelu.
Llama 3 8B, DeepSeek R1 14B nebo Mistral odezvy dle výkonu GPU cca 5-40sekund
Toto ma zaujalo. Existuje vobec "rychly" a maly model pre dajme tomu len 6GB grafiku alebo to vobec nema zmysel?
-
Já jsem testoval jak LM Studio (https://lmstudio.ai/), tak i Ollama (https://ollama.com/) v dockeru. Ta Ollama se mi osvědčila více, ale používám ji vlastně jen jako API, což mně stačí. Posílat requesty jde třeba z Postmanu.
LM Studio mi funguje/nefunguje. U některých modelů problém načíst, protože nemám silné GPU. Pracuju na notebooku. Ollama mi fungovala spolehlivě i na tom notebooku bez nadupaného GPU.
-
Ja si ted hraju s timhle. Pomoci Pythonu se stahne z huggingface model s tim se pak delaji ruzne veci.
Pak se vygeneruje onnx file ktery se nakonec nahraje do databaze kde se to integruje se SQL.
Da se to vyuzit na veci jako: najdi v DB vsechny produkty ktere maji v popisku zvire.
https://oracle-base.com/articles/23/ai-vector-search-23
PS: Disclaimer, uznavam, ze pouzivat AI uvnitr databaze se trochu uchylarna.
-
Ja si ted hraju s timhle. Pomoci Pythonu se stahne z huggingface model s tim se pak delaji ruzne veci.
Pak se vygeneruje onnx file ktery se nakonec nahraje do databaze kde se to integruje se SQL.
Da se to vyuzit na veci jako: najdi v DB vsechny produkty ktere maji v popisku zvire.
https://oracle-base.com/articles/23/ai-vector-search-23
PS: Disclaimer, uznavam, ze pouzivat AI uvnitr databaze se trochu uchylarna.
Tohle me celkem zajima a podle mne to muze mit zajimave uplatneni v hledani souvislosti. Je mozne poskytnout vice informaci?
-
Mám hodně naivní otázku, když má model x parametrů a nějakou přesnost, p kolik potřebuje RAM ? škáluje to takto: x*p? tedy 7 bilionů při Int8 = 56GB + nějaká konstanta/rezerva/zbytek?
2. to, že jsem došel k 56GB, musí to být v RAM nebo VRAM? Resp, pokud chci použít NPU, musí to být vVRAM? a obráceně, pokud to chci honit přes 16 vláken, stačí obyč v ram
3. Může to být v sdílené VRAM ? Mám jen integrovanou grafiku. (asi Maximum je polovina celkové RAM, předpokládejme že mám 128GB DDR5)
4. musí být všech tyhle data (56GB v příkladu) v RAMce najednou nebo se něco vyhazuje donačítá podle potřeby?
5. a ta naivní slíbená otázka, hypoteticky, kdybych měl ušmudlaných 16GB RAM, pomůžu si swapem (kdybych měl antihypoteticky superhyper PCIE 5.0 ssd 14GB/s) ? pokud by to vůbec šlo, tak rychlost?
-
Int8 je 8 bit, takže 8G model při něm potřebuje 8GB. Ideálně vram nebo unifikované paměti. Stěhovat ho mezi ram a vram pořád dokola je zabiják výkonu.
-
Jenom mirne ortogonalni podotek: bacha na Macy -- ten HW je skutecne neskutecne vykonny (s ohledem na spotrebu a dalsi parametry) a pytorch ma podporu hw akcelerace pres mps(? metal performance shaders, myslim ze se to tak jmenuje) ale pokud chcete pouzivat SoA veci tak obcas narazite na skutecnost ze pytorch balicky byly psane proste pro CUDA a basta. Kdyz jsem zkousel Phil4 tak jsem ho proste nespustil, protoze jak flash_attention a dalsi balicky jejichz jmeno se mi ted nevybavuji proste bez cudy nazdar. Mozna jde jak to resit v pripade Phil, nevim -- jen to vse neni tak idylicke jak to na povrchu (benchmarky nekolika modelu na mac) vypada.
-
ne Phil, myslel jsem Phi-4 Multimodal
-
Int8 je 8 bit, takže 8G model při něm potřebuje 8GB. Ideálně vram nebo unifikované paměti.
A blbá otázka jak k tomu stěhování může dojít, co to může zapříčinit? Malé množství RAM,VRAM nebo jak
A jak to funguje na iGPU AMD Ryzen 7000 +DDR5? Selský rozum ríká, že to všechno i s příkladem je unifikovaná paměť, ale nezkoumal jsem, jak to je .
Příklad mám 16 GB RAM (schválně jsem dal 15let starý state of art). Hraje roli nastavení Dedikovane RAM pro iGPU? Tedy, pokud nastavím minimum dedikované VRAM (třeba 4GB : systém vidí 11.75 GB dostupné operační paměti), nějaká náročná hra si která chce 5GB si může ten 1GB alokovat z těch 11.75GB do "Shared VRAM". Bude to z hlediska výkonu rozdíl, než když rovnou dám v BIOSu dedikované 8GB ? Pro LLM využití - hru jsem dal jako příklad. (V Biosu jde dát maximum poloviny fyzické RAM jestli se něco nezmění)
Příklad 2: mám 96GB RAM, stále iGPU, čili by se všechno mělo všude vejít. Ale i tak, je potřeba si ohlídat nějakou konfiguraci, aby nedocházelo k stěhování?
Stěhovat ho mezi ram a vram pořád dokola je zabiják výkonu.
A jaké je hrubé výkonové srování, když žádné stěhování nebude , ale poběží to jen na integrované grafice RDNA3 + DDR5.
1. grafika střední třídy s dostatkem dedikované RAM (aby se nesrovnávala RTX 5080 s RDNA3)
2. grafika střední třídy s dedikovanou VRAM, dostatkem RAM, ale nedostatkem VRAM (velikostně třeba půlka vypočtené velikost modelu)
3. můj příklad iGPU(1+2), dostatek celkové(jediné) RAM ? (doufám kdy) nebude docházet stěhování
4. můj příklad iGPU(1+2), ale s nějakou podmnkou/omezení, které zapříčiní stěhování ?
Jde mi o hrubý náčrt , jak si tyhle možnosti stojí relativně vůči sobě
-
cože ??? 1TB za $9.99, to jako že 1TB za 10USD ??? no to asi ne ..
kde si to sehnal ??? a na sestavení LLM potřebuješ aspon 50TB disk
pochop že někde se ty data musí nashromáždit a taky ten počítač
co naučí tu neuronovou síť ten asi taky nebude mít Ryzen 2600 :)
no doma asi tak za 30 let :) odhadem ... ale jako jestli seš miliardář
tak si klidně pěstuj doma 100TB disky .. .:)
-
:) , :) ,
nevim co s to sem káknul do diskuze ty havrane, jediný kdo zasel semínko "1TB" byl původní tazatel a ak už se o "TB" nikdo neotřel a na 100TB se našetří světe div se za 1000 U$D. což není za 30 let práce vývojáře embeded systému, ale i klidně za 30 dní práce opraváře proudových chráničů... Ono asi to nejde to provozovat od píky., spíš nějaké hotové modely má otázka je zda jde dělat něco jako inkrementální trénování AI, že vemu hotový LLAMA ale něco bych si dotrénoval ze svých dat nebo jako hotový a nový vzniklý model propojit, jestli se to takhle dá nazvat)
ale nejsem si jistý jestli pro tebe není lepší zůstat u opravy proudových chráničů a nebo si koupit(nebo vyvinou) nějaký embedded Corálek na AI.
děláš na mě dojem jako nějaký zběhlý v všem jako ředitel Leonardo ∂'Vinci ale v naštvaném týmu v mateřské školce, co jim nejde internet od o2
-
má otázka je zda jde dělat něco jako inkrementální trénování AI, že vemu hotový LLAMA ale něco bych si dotrénoval ze svých dat nebo jako hotový a nový vzniklý model propojit, jestli se to takhle dá nazvat)
Asi se ptáš na RAG https://cs.wikipedia.org/wiki/Retrieval-augmented_generation
-
Int8 je 8 bit, takže 8G model při něm potřebuje 8GB. Ideálně vram nebo unifikované paměti. Stěhovat ho mezi ram a vram pořád dokola je zabiják výkonu.
Pardon, ale jaká je výhoda unifikované paměti kromě toho, že to stěhování dělá CUDA sama (a pěkně debilně alespoň na 12.7, když je na hraně s VRAM tak to úplně v klidu vyprodukuje tu nenáviděnou hlášku Out of CUDA memory), místo toho, aby to stěhovala aplikace/knihovna/blabla.to("gpu")
cit: "Under the hood, Unified Memory automatically migrates data between the host and device as needed. This means that when the host accesses data that is currently on the device, Unified Memory will automatically transfer it to the host memory, and vice versa. This migration is managed by the CUDA runtime, which tracks memory accesses and performs the necessary transfers transparently."
https://intro-to-cuda.readthedocs.io/en/latest/tutorial/unified_mem.html
-
cože ??? 1TB za $9.99, to jako že 1TB za 10USD ??? no to asi ne ..
kde si to sehnal ??? a na sestavení LLM potřebuješ aspon 50TB disk
pochop že někde se ty data musí nashromáždit a taky ten počítač
co naučí tu neuronovou síť ten asi taky nebude mít Ryzen 2600 :)
no doma asi tak za 30 let :) odhadem ... ale jako jestli seš miliardář
tak si klidně pěstuj doma 100TB disky .. .:)
taky jsem si nebyl jist ale kdyz se podivas na seagate, tak ten jejich domaci 24TB HDD je za $249... ja nejsem miliardar ale mam doma neco pres 1PB... nekdo utraci prachy za holky, nekdo za fet, nekdo si poridi HW...
-
kladu si otazku zda 1 PB porna je instalace do HW nebo do holek
cože ??? 1TB za $9.99, to jako že 1TB za 10USD ??? no to asi ne ..
kde si to sehnal ??? a na sestavení LLM potřebuješ aspon 50TB disk
pochop že někde se ty data musí nashromáždit a taky ten počítač
co naučí tu neuronovou síť ten asi taky nebude mít Ryzen 2600 :)
no doma asi tak za 30 let :) odhadem ... ale jako jestli seš miliardář
tak si klidně pěstuj doma 100TB disky .. .:)
taky jsem si nebyl jist ale kdyz se podivas na seagate, tak ten jejich domaci 24TB HDD je za $249... ja nejsem miliardar ale mam doma neco pres 1PB... nekdo utraci prachy za holky, nekdo za fet, nekdo si poridi HW...
-
Rozjel jsem na svém počítači Ministal-8B přes program llama.cpp. Fungujete to docela dobře, ale ten jazykový model neumí dobře česky. Jednoduchý český text sice pochopí, ale když něco napíše česky, tak je to občas nesrozumitelné, vymýšlí si slova a gramatika je také špatná. Máte nějakou zkušenost s LLM do 14B parametrů, která umí česky.
-
v jinem vlakne se ptas na uceni anglictiny.
Pokud tim LLM necilis na specificky cesky business case, neinvestuj jednu minutu do cestiny a operuj pouze a pouze v Anglictine. Predpokladam, ze "jsi IT"... pokud ne, si na spatnem foru. Pokud si IT ale nezvladas nastroje v anglictine, jsi ve spatnem oboru.
Rozjel jsem na svém počítači Ministal-8B přes program llama.cpp. Fungujete to docela dobře, ale ten jazykový model neumí dobře česky. Jednoduchý český text sice pochopí, ale když něco napíše česky, tak je to občas nesrozumitelné, vymýšlí si slova a gramatika je také špatná. Máte nějakou zkušenost s LLM do 14B parametrů, která umí česky.
-
V jiném vlákně se neptám, ale odpovídám a snažím se pomoci.
Anglicky umím velmi dobře a v IT oboru přímo nedělám. Dříve jsem psal programy pro PC, v současné době občas programuji průmyslové automaty.
Ten jazykový model jsem rozjel na svém domácím PC a zatím ho zkouším, co dovede. Chtěl bych to využít na práci s textem (kontrola, překlad, zjednodušení nebo prohledání textu). Zeptal jsem pouze na zkušenosti s používání češtiny u menších LLM. Prohledal jsem dost článků, ale moc jsem se toho nedozvěděl. Možná se někdo tady najde, kdo s tím má zkušenost. Nějaké LLM ještě zkusím, ale se stahováním tak velkých souborů mám docela problém.
-
sorry, muj omyl.
jako omluvu jsem se zeptal kamose a mel velmi dobre (nikoly perfektni) zkusenosti s Gemma 3, provozovane na 5070 Ti 16GB
V jiném vlákně se neptám, ale odpovídám a snažím se pomoci.
Anglicky umím velmi dobře a v IT oboru přímo nedělám. Dříve jsem psal programy pro PC, v současné době občas programuji průmyslové automaty.
Ten jazykový model jsem rozjel na svém domácím PC a zatím ho zkouším, co dovede. Chtěl bych to využít na práci s textem (kontrola, překlad, zjednodušení nebo prohledání textu). Zeptal jsem pouze na zkušenosti s používání češtiny u menších LLM. Prohledal jsem dost článků, ale moc jsem se toho nedozvěděl. Možná se někdo tady najde, kdo s tím má zkušenost. Nějaké LLM ještě zkusím, ale se stahováním tak velkých souborů mám docela problém.
-
Díky za zprávu.
-
Ja jsem o nasi zkusenosti s LLM napsal blog https://blog.e-infra.cz/blog/run-llm/. Pro jakesi info o cestine lze pouzit na huggingface leaderboard: https://huggingface.co/blog/benczechmark
-
Velice vám děkuji. Ten článek jsem si přečetl a těším se na pokračování. Ty tabulky mně pomohly, ještě se musím rozhodnout, které modely stáhnout a vyzkoušet je.
-
Ja jsem o nasi zkusenosti s LLM napsal blog https://blog.e-infra.cz/blog/run-llm/. Pro jakesi info o cestine lze pouzit na huggingface leaderboard: https://huggingface.co/blog/benczechmark
Skvely clanek (btw i stylisticky)!
Trochu me to utvrdilo v tom ze pro experimentovani s ruznymi (hlavne velkymi) modely je asi lepsi pouzivat je z cloudu bud rovnou jako API nebo je jet na pronajatem cloud HW - a platit ciste jen za use.
V domacich podminkach se mozna "uzivi" vic male modely site na miru konkretnim use cases, ktere tim padem nezaberou tunu mista (disk, RAM/VRAM) a daji se rychleji stridat.
Ja napr. hodne pouzivam VoiceLink pro diktovani s lokalnim Parakeet modelem, nejsem tak zavisly na latenci site (u diktovani muze byt otravna), mam lepsi pocit "privatnosti" ( ;D ) a pritom mi to nezere 100% RAM.
Naopak v terminalu pouzivam https://github.com/simonw/llm (https://github.com/simonw/llm) vzdycky kdyz si nemuzu vzpomenout na ten spravny prikaz (jo, nikdy jsem se poradne nenaucil sed, awk atd) a ten mam napojeny na OpenAI GPT5-nano pres jejich API. Spotrebovava to tak malo tokenu (jedna otazka/odpoved zlomky haliru, nepotrebuje to velky context) ze se to vyplati nejet lokalne.