To je skoro 2 roky starý model, ne? Je pro to nějaký důvod? (už je Qwen 3.6, obdobných velikostí).
Snažím se nechodit u modelů pod 4bit kvantizaci a nechávat místo pro 3GB kontextu. Nejmenší Qwen 3.6 IQ4_XS má 19GB a to už prostě nevychází
I když teď někde vychvalovali TurboQuant od Google, že umí solidně i 3bit, tak bych to mohl zkusit.