díky za podnětný návrh. Jestli jsem to dobře pochopil, jedná se o HA řešení
Zsync není opravdové HA řešení. Opravdové HA musí vypadat nějak takhle:
1. minimálně dva nody schopné převzít zátěž (spustit virtuály)
2. společné (!) úložiště - tj. data virtuálů nejsou uložená na nodu, ale mimo něj, přístupné oběma nody
3. nějaký způsob detekce živosti (třetím nodem) + fencing (v případě výpadku nodu 1 jej natvrdo (!) vypne a virtuály spustí na nodu 2) - fencing se opravdu dělá tvrdě, např. vypnutím proudu pro ten node, aby byla jistota, že se v síti nemůžou plést oba dva nody
U zsync je ten bod 2 udělaný jinak - každý z nodů má virtuály uložené na svém
lokálním úložišti a čas od času se data synchronizují.
U všech řešení je potřeba dát pozor na dvě věci:
1. typicky se nesynchronizuje obsah RAM - cokoli je v RAM a není na disku, bude při pádu nodu nenávratně ztraceno, HA neHA.
2. bacha na to, že disk se může synchonizovat (u společného úložiště může pří pádu zůstat v) nějakým způsobem nekorektním/neúplném stavu. Na to je potřeba myslet hlavně u zápisů, které nemají transakce. Pokud transakce jsou, je potřeba myslet na to, jestli jsou klientovi potvrzeny skutečně až po plném zápisu na disk (bacha na disky, které lžou apod.) Není to žádná pr.del, na 100%ní spolehlivost nelze spolíhat, pokud tomu člověk úplně suprově nerozumí a nemá všechno perfektně otestované a ověřené.
, které 'mý být' méně náročné na správu. To je trochu náš problém a obávám se, že se o to musí někdo starat. Proto bych rád vědel, co to v běžném provozu obnáší.
ProxMox je klikačka, se kterou se člověk seznámí rychle a údržbu vyžaduje takovou, jako jakýkoliv linuxový stroj (hlavně updaty, případné restarty). Výhodou je, že virtuály se dají migrovat, takže je možné virtuál odmigrovat, stroj updatovat, restartovat. Totéž na druhém stroji.
Někdo tady napsal, že s verzí 4 měl problémy, verze 5 je z cervna 2017 - tedy relativně nová věc. A i ty připomínky ohledně ZFS jsou trochu znervózňující.
To se týká výlučně ZFS. ProxMox má víc druhů úložišť. Já jsem chtěl ZFS hlavně proto, že s ním mám zkušenost. Bohužel na Linuxu je to se stabilitou asi tak stejný jako na FreeBSD před sedmi lety...
Zkoušel jsem ještě LVM, ale tam ProxMox používá thin provisioning, na můj vkus je to příliš složité a málo přehledné a při nekorektním vypnutím se mi podařilo ho dostat do stavu, který jsem neuměl opravit (tím netvrdím, že to nešlo). Takže ZFS mi přišlo jako lepší volba. V 5ce se navíc zdá být už rozumně stabilní.
Za jak dlouho je možno odhadem se do problematiky zapracovat? (máme 20 let zkušenosti s unixem). Běží to skutečně bezproblémově?
Týden zkoušení člověkem, který má aspoň nějaké povědomí o Linuxu a aspoň trochu tuší, co bude dělat. Pak nějakou dobu na ne-produkční testování - jak dlouho záleží na tom, jak moc velkou jistotu chce člověk mít...
Řekl bych, že největší věda je vymyslet, jak to vlastně celé bude fungovat (ZFS, LVM nebo Ceph?) sdílené úložiště nebo lokální? Automatický fencinf a failover, nebo prostě manuální přepnutí? Kdyř ZFS, tak cache na SSD? Čtecí nebo zápisová? Atd. atd. Naštěstí ale díky tomu, že se VMs dají migrovat, hodně se dá i ex post změnit, buď úplně za běhu, nebo jenom s minimálními výpadky.