Pochopil jsem, že mu celý CEPH zamrzl... to se nesmí stát.
Standardně je nastaveno 3/2 (dva potvrzené zápisy a tři kopie) což je minimum pro zajištění konzistence dat.
Pokud dva systémy neodpovídají dojde k zamrznutí celého FS. Třetí kopie je zřejmě vytvářená nějakým lazy způsobem.
Disky by ale neměly být rotující (jejich seek to celé zabije). Funguje to, ale spíš jako cold-storage.
CEPH asi zatuhne jen ze dvou příčin
a) málo serverů s OSD pro potvrzení zápisu - obvykle minimálně 2x
b) velký traffic při replikaci (možná točivé HDD)
Chyba může být i nevyvážená lokace dat (disk, server, rack, místnost, budova) vzhledem k replikám. Dvě repliky na jednom serveru je špatně.
Pokud bude mít víc jak tři servery, CEPH se sám dostane do plně konzistentního stavu, na třech serverech s jedním mrtvým bude vždy "degraded".
Mám přesně tuhle konfiguraci co máš ty. 3x node pve/ceph 2x disk systém (hw raid) 2x disk pro osd
Tento scénář jsem zatím netestoval, pouze "smrt" nodu kde je nějaký server aby zafungovalo HA.
Můžu to zkusit tak jak popisuješ ty.
Čili jestli to dobře chápu máš nějaký VM, který ti běží třeba na nodu 1 a ty zabiješ node 3 a zajímá tě co to bude dělat s diskem v té VM?