RAID vyhazuje jeden disk

Tomas

RAID vyhazuje jeden disk
« kdy: 01. 08. 2011, 09:26:02 »
Zdravim
uz delsi problem mam s jednim strojem, kde bezi par virtualu. Cca po 10-14 dnech je pokazde jeden disk vyhozen z raidu (viz log dole). Je to pokazde ten ten samy sata slot a kdyz ten disk pichnu doma do ramecku a pripojim do PC, tak se vsechno tvari ze je OK, ale v serveru zatim nevydrzel pres 14 dni. Prvni tam byl WD velociraptor 150G, dal jsem zkousel WD 250G enterprise storage - dokonce dva kousky a oba se tvari ze jsou v neporadku.

smartctl se tvari jako kdyby na tom danem slotu nebyl zadny disk

Linux 2.6.26-2-xen-amd64 #1 SMP Mon Jun 13 18:44:16 UTC 2011 x86_64 GNU/Linux
mdadm verze  - 2.6.7.2-3
syslog z doby kdy byl disk vyhozen z raidu
http://pastebin.com/04FUeJEZ

mel by nekdo nejakou myslenku proc se toto deje? pripadne muzu poskytnout vice informaci
diky
« Poslední změna: 01. 08. 2011, 12:55:55 od Petr Krčmář »


Re: mdadm raid problem lenny
« Odpověď #1 kdy: 01. 08. 2011, 09:39:50 »
Dobrý den,

já měl tyhle disky na jedné zakázce a dělo se mi to samé, později se prodejce disků vyjádřil, že výrobce měl chybu ve firmwaru. Po nahrání firmwaru bylo vše bez problému.

Tomas

Re: mdadm raid problem lenny
« Odpověď #2 kdy: 01. 08. 2011, 09:48:57 »
To by klidne mohlo byt, ty disky jsou kupovane najednou, takze by mely byt stejne serie. Zda je tomu tak nezjistim, jelikoz se na ten disk nedostanu vzdalene

RDa

Re: mdadm raid problem lenny
« Odpověď #3 kdy: 01. 08. 2011, 10:41:51 »
Lidi premyslite vubec? Pokud dela tu samou chybu vzdy stejny SATA slot na trech kusech disku, porad si myslite ze je to chyba disku?? Muze to byt chybny port, ale pravdepodobny je ze je to vadny kabel. (mel jsem podobnou zkusenost s redukci sas/sata - jeden port vykazoval vyssi pocet chyb dle smartu, po vymene kabelaze to jede lepe).

Tomas

Re: mdadm raid problem lenny
« Odpověď #4 kdy: 01. 08. 2011, 12:02:25 »
jeste edit, ten prvni disk (pri pripojeni jinam hlasi ve smartu chyby) se vysypal v jinem slotu nez tento... to jsem neuvedl - moje chyba



RDa

Re: RAID vyhazuje jeden disk
« Odpověď #5 kdy: 01. 08. 2011, 13:19:20 »
Pokud ve Smartu jsou chyby, tak to jde reklamovat.

Podobne me odesel z mirroru jeden Raptor 74G a jeden 15k Sas 147GB (z raid5)..  clovek by cekal vyssi MTBF u techto rad, ale ve skutecnosti u me vydrzeli consumer bezet vzdy dele. A neni to zatezi, ta tam skoro zadna nebyla.

Na druhou stranu, enterprise vs. consumer se lisi implementaci hlaseni chyb - ty serverove totiz hlasi jako selhani i zadrhel jez by sel trochou dalsi snahy opravit a myslim ze zrovna md-raid se chova tak ze tento disk vyhodi, kdezto hw radic by mel udalost jen zalogovat a rychle poskytnout data jinou cestou - ale nezhodit cele pole do degradovaneho stavu. (Takze proto muze byt pole z consumer disku "stabilnejsi").

trubicoid2

Re: RAID vyhazuje jeden disk
« Odpověď #6 kdy: 03. 08. 2011, 11:56:02 »
no a co vyprovokovat novou detekci disku? treba se rozjede:
Kód: [Vybrat]
echo "- - -" > /sys/class/scsi_host/host?/scan
jinak kupodivu pomuze toto:
Kód: [Vybrat]
echo "Disabling NCQ"
for i in /sys/block/sd?
do
        echo 1 > ${i}/device/queue_depth
done

a toto:
Kód: [Vybrat]
smartctl -l scterc,70,70 /dev/sd?

trubicoid2

Re: RAID vyhazuje jeden disk
« Odpověď #7 kdy: 03. 08. 2011, 12:03:25 »
jeste nektery ty WD maji jumper na SSC, spread spectrum clocking
s nim my prestaly vypadavat z RAIDu, tak mrkni, jestli ty tvoje to maji

http://www.wdc.com/wdproducts/library/other/2579-001037.pdf

Trident

Re: RAID vyhazuje jeden disk
« Odpověď #8 kdy: 03. 09. 2011, 13:01:28 »
Pokud ve Smartu jsou chyby, tak to jde reklamovat.

Podobne me odesel z mirroru jeden Raptor 74G a jeden 15k Sas 147GB (z raid5)..  clovek by cekal vyssi MTBF u techto rad, ale ve skutecnosti u me vydrzeli consumer bezet vzdy dele. A neni to zatezi, ta tam skoro zadna nebyla.

Na druhou stranu, enterprise vs. consumer se lisi implementaci hlaseni chyb - ty serverove totiz hlasi jako selhani i zadrhel jez by sel trochou dalsi snahy opravit a myslim ze zrovna md-raid se chova tak ze tento disk vyhodi, kdezto hw radic by mel udalost jen zalogovat a rychle poskytnout data jinou cestou - ale nezhodit cele pole do degradovaneho stavu. (Takze proto muze byt pole z consumer disku "stabilnejsi").

Ne je to jinak. Je to o tom jak interpretuje hlaseni disku pole. Enterprise disky maji spoustu ukazatelu chyb ktere jsou treba behem zivota normalni, pripadne maji reportovat jen docasnou chybu ktera vznikla treba zakolisanim napajeni. Neni vyjimkou kdy pri startu disku disk kvuli z pomalene inicializaci nahodne nacvaka nektera pocitadla. Pak jsou ukazatele ktery maji reportovat ze by bylo dobry vymenit disk preventivne.
Spis je hnupec ten co delal software do pole si chtel usetrit praci. Mimochodem firmware mate posledni ze?

BTW:WDcko si na enterprise veci muze poridit jedine hazarder.