mimochodem, jaké máš zkušenosti s obnovou HW raidů? Já jsem z toho segmentu trochu rozporuplný, těch kontaktů s podporou daného výrobce jsem zažil asi už příliš, ty hromady ručně nahrávaných firmwarů, která support háže jak na běžícím pásu (segment 1U - 4U standalone serverů nikoliv diskových polí). S ZFS to je poměrně lahoda a ani si nepamatuji, kdy jsem nebyl schopný vadný disk za rozumnou dobu obnovit. Naopak provoz ZFS už taková lahoda není, chce to trochu studování.
Nijak extra širokou zkušenost nemám, v podstatě pár kousků za ta léta. Většinou když už se ke mě dostalo něco na obnovu, bylo to typicky Synology, QNAP, kde je normální mdraid (pokud nepočítám ty nejdnovější modely s ZFS).
U těch klasických serverových RAID adaptérů (LSI, Areca, Adaptec.. a nějaké OEM varianty) to bylo v podstatě zřídkakdy, byly tam třeba problémy, kdy prostě odcházela ta karta a skončilo to třeba poškozeným obsahem NVRAM. Vyměnit kartu, naimportovat svazek a v pohodě.
Nebo to byla taková ta klasika, kdy je RAID-5 s disky na konci životnosti, dáš rebuild ze spare a v tu chvíli to vykopne další disk a celé se to zastaví. Ale při troše štěstí jeden z těch odešlých disků nemusí být úplně kaput, a třeba ho přes ddrescue zkopíruješ po více průchodech na čerstvý disk (100% sektorů), vyresetuješ kontrolér a naimportuješ celý RAID podle signatur na discích. Tohle se mi třeba povedlo dvakrát, jednou s LSI (OEM Dell), ale fakt to beru jako kliku.
Blbý je, když se to překopíruje s chybami, to už je pak na to seskládat to v nějakém programu a ani to nemá smysl zkoušet v tom původním kontroléru, protože se to typicky stejně zastaví a rozpadne. V tomhle případě to může komplikovat zjištění layoutu (offset, typ rotace parity). Dneska už poměrně hodně recovery programů má nějakou autodetekci a zná obvyklé nastavení od spousty výrobců (např. Hetman). Já když jsem to před lety dělal tak jsem si vzal kostičkovaný papír a iteroval několik hodin, než jsem se někde dobral, že ten HP RAID má delayed parity.. a slavnostně přečetl slovo EFI na offsetu 0x200

Oproti tomu RAID 5 z Arecy byl pak třeba úplně v pohodě.
Ale stejně, já to dělám v podstatě ze zájmu, nebo pro své účely, známé. Takže mám relativně omezené možnosti, co s tím můžu udělat, nemám třeba rovnou k dispozici velkou SAS/SATA bednu (max. 8 slotů, plus něco na kabely uvnitř). Pokud fakt odejde disk a nejde z něj číst, tak mám známé profíky, co mají hromady náhradních dílů, speciální nářadí, přístroje, komerční i svůj software a hlavně také platí těm výrobcům disků, aby se dostali do servisních oblastí, dovedli ty disky třeba rekalibrovat atp. Stejně jako když jde o něco složitého (třeba částečně přepsané věci), nebo za hodně peněz, tak je posílám rovnou za nimi.
Ale fakt, když to vezmu celkově tak to nebylo zdaleka tak problematické a chovalo se to víceméně očekávávaně. Paradoxně jsem zažil víc problémů, byť ne třeba data ohrožujících, s těmi dedikovanými a řádově dražšími FC/iSCSI externími poli - i v takové té nižší střední třídě. Přesně kritické updaty firmware, rozbité failovery s redundantními kontroléry, ztrácení dat z NVRAMek (RAID signatura a data zůstane na discích, ale vymázne to mapování LUNů, přístupová práva), vykopávání zdravých disků. Oproti tomu ty karty byly vlastně v tom množství docela v pohodě.
Mně u HW raidů prostě vadí jak strašný to je blackbox, jak extrémně málo interních informací ti výrobce poskytne, jak to je plné různých bugů a problémů, které se prostě řeší dny na podpoře. Naštěstí dnes prakticky všude už žádná důležitá data na lokálních discích nemáme a raději celý server obnovujeme, když odejde OS disk.
Jak se to vezme, na jednu stranu to je sice blackbox, ale pokud fakt dojde na lámání chleba, tak když u toho klasického HW RAIDu trefíš zmíněné parametry (byť je to blackbox), tak je to pořád "hratelný", byť i to se v poslední době pěkně komplikuje (declustered RAID atp). Kdybych měl nějakou kritickou chybu média bez další redundance s částečným obnovením a poškozené struktury třeba u ZFS, tak jsem úplně v pytli. Člověk, co to dá do kupy, tak je pro mě Čáryfuk.. (proměnlivá velikost bloku, komprese, bez pevného pravidelného prokladu, téměř bez šance se chytit se relativně jednoduše nějakých patternů v souborech). Asi by to někdo dal, ale pro mě je to na úrovni šifrování i když tam žádné nutně není

Pomalu se kloním k variantě, kdy je lepší asi raději ty raidy nepoužívat vůbec a data rovnou replikovat na jiný server. Je to jednoduší, transparentní, lze to rozšířit snadněji o plnohodnotné zálohání, není potřeba taková fůra znalostí kolem toho všeho. Není nic horšího než čekat na seniora, který zrovna je někde v loji a bez něj nejsi schopný server obnovit, protož tam je vždy nějaké "ale" a každá chyba může vést ke ztrátě dat.
Nevím, fakt bych to obecně neviděl tak problematicky. To jestli to jde bez RAIDu strašně záleží na situaci, beru to primárně pro zvýšení dostupnosti, kdy to jeden nebo dva vadné disky nepoloží. Klasická záloha je samozřejmě super, ale stejně to znamená výpadek, výměnu, restore a typicky i díru v datech od poslední zálohy.
Replikace s failoverem není vždy dobře realizovatelná (třeba kvůli výkonu nebo množství dat) a hotové úložné systémy, co to umí dobře, a od začátku s tím počítají, jsou pekelně drahé. Nebo je to relativně dost komplexní záležitost (Ceph). Ale chápu, že v určitých aplikacích i třeba nějaké jednodušší řešení s DRBD může dávat smysl.