@Hometcloud: Řešíme HA - high availability (po chcípnutí jedné služby je daná služba znovu spuštěna někde jinde v řádu sekund-desítek sekund) nebo FT - fault tolerant (kde když chcípne služba na jednom místě, tak v řádu desítek milisekund pokračuje na jiném místě cca v bodě, kde to chcíplo na prvním místě)?
Přiznám se, že OpenStack neznám, ale měl jsme za to, že HA umí od přírody sám o sobě a netřeba na to do něj nějaké další udělátko. U KVM se řeší běžně HA pomocí clusteru, provozujeme RHCS (což je PaceMaker u RHEL7) a nad tím KVMka od dob RHEL5, předtím na RHEL4 a Xen nad tím (a za dob RHEL3 to byly ještě služby přímo běžící nad HW bez virtulizace migrované dle potřeby).
Pro HA řešení stačí Ethernet, switche jsou za pusu, Pro FT a některé další aplikace distribuovaného zpracování dat/výpočtů je vhodnější Infiniband, kdy jde o lepší odezvu, garantované časování plnou obsluhu všeho v HW (minimulně to poslení RDMA pomalu začíná pronikat i do Ethernetu 10+ Gbps). Pokud mám jen pár strojů (2-3) v rámci jendoho racku, tak Infiniband 40 Gbps propojení je za pusu, když nepotřeuji Infinibnd switch.
Pro fault tolerant řešení do KVM/QEMMU jsou dva projekty: Kemari a MicroCheckpointing.