Záleží na použití.
Z vlastní zkušenosti s Mac mini M4 / 24GB RAM, vyhrazeným pouze na hrátky s LLM:
- i starší RTX 3070 je několikanásobně rychlejší než M4 (ale taky žere 10x tolik elektřiny)
- je velký omyl myslet si, že když se model vejde do (V)RAM tak máte vyhráno - je potřeba počítat s místem pro kontextové okno. Čím delší vstup a složitější prompt, tím větší je potřeba.
- qwen 2.5-coder:14b dokáže v pohodě přepisovat několik set řádkové scripty (PHP, JS, html/css, python ...) - sežere i s rozumným kontextovým oknem 21GB RAM (systém je upravený aby umožnil Ollama démonu alokovat 90% RAM a nepoužívám GUI, takže 3GB pro OS stačí) - není to nejrychlejší, ale vezme si při práci 20W a běží nonstop

- použití lokálního LLM jako agenta je dost problém kvůli potřebné velikosti kontextu a taky je (pro smyslupnou práci) nutné mít chytřejší model - třeba qwen 3.5-agent:latest - tady už 24GB nestačí a hodil by se dvojnásobek (model se při rozumné kvantizaci rozjel, ale neměl dost místa pro kontext a brzo začal halucinovat).
- Hloupější LLM zpravidla neumí používat nástroje - tady vidím největší omezení - například si nic nedohledá na webu, neověří výstup kódu atd. Zatímco třeba Claude už umí ladit scripty přes Chrome DevTools

Teď zkouším nějakou netriviální práci s texty a tvorbu jednoduchých scriptů - tam 24GB sdílené RAM není na překážku. Za 20k Kč na hraní ideál - malá krabička hozená pod stolem, není slyšet a skoro netočí elektroměrem a slouží jako LLM backend pro aplikace běžící někde na VPS
Pro kompletně lokální vývoj bych potřeboval tak 128GB RAM a o kus rychlejší procesor, ale to už je úplně jiná cena za HW.
Pokud nechci pustit cloudový LLM ke kódu - teoreticky se dá použít třeba Claude jako plánovač a agent pro nástroje + lokální model jako kodér a tím odklonit Claude od kódu. (A jako bonus ušetřit spoustu tokenů). Ale je potřeba použít vhodný plugin (ve VSCode možná Roo Coder) a hlavně ho správně nastavit. Tam bych ale raději vyměnil grafiku v PC za 16GB model a šel touto cestou.