Nevim jak moc tupy je zfs, ale kazdy normalni pole vyhazuje disky ktery vykazujou vetsi latence nez ostatni. Protoze prave to je prvni indikace toho ze failnou.
Je to přesně, jak psal RDa. Pro vykopnutí zařízení z pole je rozhodující timeout IO operace, proto jsem to taky předtím zmiňoval.
V tomhle případě s výchozím nastavením zařízení a systému je tam v podstatě kaskáda.
Nejkratší timeout by měl mít firmware zařízení v sobě, někdo tomu říká TLER, ERC atp. a u serverových disků je to typicky 7 sekund. To je čas, co dáš disku na to, aby si to pořešil sám v sobě (třeba remapováním sektoru). Když to nedá, tak disk systému indikuje chybu média a probublá to nahoru až do filesystému.
Pokud tohle z jakýchkoliv důvodů neproběhne, tak vyprší timeout na blokové vrstvě v systému, což je těch výchozích 30 sekund a zas se to indikuje až do filesystému, který typicky vyřadí dané zařízení.
Nakonec filesystém má ještě své delší 300, 600 sekundové timeouty. Takže pokud není IO operace dokončená v tomhle limitu a nedostane informace se zmíněných dvou předchozích vrstev.
Cílem je to, aby tam nebyl nekonečný výtuh filesystému a procesů, co dělají IO operace. A samozřejmě, aby se redundantní vdev přepnul do degradovaného režimu a přestalo se používat nefunkční zařízení v něm.
Trochu to zjednodušuju, ale víceméně takhle s těmi timeouty fungují i HW RAIDy.
To co ty zmiňuješ, je typicky funce, kdy se v řadiči sbírají nějaká statistiky o discích (přístupová doba, smart countery atp.) a pokud to překročí nějaký práh, tak to začne řvát, posílat alerty atp. Může to být spřažené i s nějakou prediktivní kontrolou, kdy se čtou všechny sektory (Patrol Read atp.).
Nad rámec toho, tam lze povolit i něco jako "Adaptive spare replacement" (opět jmenuje se to různě), tzn. když máš dedikovaný náhradní disk a původní je označen za špatný podle těch zmíněných kritérii, pole se začne automaticky rebuildovat.
Ale nikdy to nesáhne na redundanci pole, že by něco samovolně vykoplo (a přešlo prediktivně do degraded režimu), pokud tam není další připravený disk.
U SMR disků, pokud s tím vyloženě nepočítá ten RAID (ať už HW nebo SW), to snadno může překročit i ty standardní timeouty, proto se to vykopává.
Jde fakt o jinou situaci, než u dvou různých SSD.. v podstatě nevadí, že jeden z nich je pomalejší, jen to s sebou vezme výkon celého pole. Nejde o ty minutové excesy jako u SMR.