Nedávno jsem zkoušel, jak na tom poběží klasická llama.cpp a nebyl problém svižně pracovat s modely do cca 50GiB. Přes vulkan a jen s otevřeným ovladačem. Jestli se používalo i NPU netuším.
Nejspíš ne. Co vím, tak upstream llama.cpp nemá žádný oficiální backend pro tahle NPU. S tím Strixem to bude používat buď Vulkan nebo HIP.
Ale AMD má nějaký svůj fork, kde to je dostupné.. ale použitelné omezeně.
viz
https://github.com/ggml-org/llama.cpp/issues/14377Co se týká hardwaru samotného, tak v mainline kernelu je pro to určitě modul.. drivers/accel/amdxdna
Jinak vůbec to neznám detailně a konkrétní HW se mi zatím nedostal do ruky. Ale nicméně jestli to chápu správně, tak hlavní benefit toho NPU je, že to má v porovnání s GPU daleko menší spotřebu, ale je to pomalejší a daleko míň univerzální.. Ta idea podle mě byla, že se to hodí primárně na nenáročný běh nějakých specifických menší modelů, co dělají třeba pre-procesing promptů, řeší třeba audio nebo obrazové vstupy přes CNN.. než se to finálně pošle do většího LLM. Buď v cloudu (jako třeba Copilot), nebo i lokálně, pokud bude běžet na GPU (byť jsem zatím žádný takový NPU+GPU hotový hybrid neviděl, ale extra jsem to nehledal).