Osobně dělám správu HPC clusteru + nějaký servery se službama, co pouštíme ven. Služby jsou easy-breezy, tam je všechno v kontejnerech a s 2 K8s "matkama", takže není problém je jeden po druhým shodit, updatovat a nahodit.
HPC je větší oser (a zní to jako tvůj use-case). Tam to řeším tak, že nejdelší job pro běžnou frontu, mám ve Slurmu nastavený na 2 týdny a hlídám, kdo má přístup do fronty s delšími joby. 1x za 2 měsíce se pak celý cluster shodí a updatuje se matka + obraz, ze kterého bootují nody skrze Warewulf. To řeším tak, že ve Slurmu včas nastavím cutoff, že nemá brát dlouhé joby a uživatele varuju v motd, že delší joby budou až do rebootu viset ve frontě. Pokud někdo potřebuje extra dlouhý job, tak ho nasměruju buď na dedikovaný workstation, nebo holt odložím update. Když by nějaká CVE hodně hořela, nejspíš bych řešil update urgentněji.
Ryze prakticky jsme se zaměstnavatelem už řešili, jestli by to nešlo udělat líp (při plánování nové infra), ale to vždycky ztroskotá na faktu, že buď by bylo potřeba udělat celý cluster robustnější (víc matek, rozhazování obrazů postupně po částech clusteru), což by stálo peníze navíc, zaplatit korporátní support s live-patchingem (další peníze navíc), nebo obětovat kus bezpečnosti, což nikdo nechce.