Fórum Root.cz
Hlavní témata => Hardware => Téma založeno: gwh 16. 05. 2013, 16:16:17
-
Zdravim.
Na serveri sa na 2 rovnakych diskoch (RAID1) vyskytli v jednom okamihu chyby - vadne sektory. Podozrivy je aj rovnaky pocet chyb. SMART long test zbehol na oboch v poriadku, dd-cko (iba citanie) tiez zbehlo bez chyb. Aj vzhladom na prvu chybu v logu typujem skor chybu inde ako v diskoch. Co mohlo byt pricinou (mam nejake podozrenia, ale... :) )?
syslog http://pastebin.com/4u7WkT2b (http://pastebin.com/4u7WkT2b)
smart http://pastebin.com/LGiPasTG (http://pastebin.com/LGiPasTG)
smart http://pastebin.com/gvYEw9yM (http://pastebin.com/gvYEw9yM)
-
jsou zarovnany oddily na sektory?
popr. by to moh delat sata kabel, ale to by asi nebylo na obou soucasne
-
tie disky su uplne rovnake, 1 particia a bezia uz 4 roky bez problemov. kable, to je jedna z moznosti, ale presne - na oboch naraz? a ak by to aj boli kable, co by naznacovala ta prva cast logu, nemalo by to predsa vplyv na vznik vadnych sektorov.
-
Ty disky ale moc stejně nevypadají. Podle smartreportu byl skutečný bad sector pouze na /dev/sde, kde Reallocated_Sector_Ct=1, na /dev/sdf je to 0. Stejně tak je zajímavé, když píšete, že jde o stejné disky, ale jeden má najeto 15432 hodin a druhý 35640. Takže asi je vadný jen jeden z disků a pole objevení se bad sectoru nevydýchalo.
-
Obecne je klidne mozne, ze disky maj problem oba. Zivotnost disku je jenom par let, jsou to mechanicke soucastky ktere se opotrebovavaji... Skoro se divim ze vydrzely 4 roky :)
-
je to tak. jeden disk bol ako nahradny a bol pouzity neskor. ano, iba jeden disk ma vadny 1 sektor, ale oba maju rovnaky pocet 12 Reported_Uncorrect sektorov (z mojich skusenosti to znamena skory odchod, alebo minimalne (dalsie) vadne sektory), co mi stale vrta hlavou. bojim sa, ci to nebude nahodou radic. ale podrobnejsi test diskov bude asi nevyhnutny.
-
Disky jsou v pohodě, nemají žádné vadné (uncorrectable ani pending) sektory. Jeden má jeden relocated sektor, ale to zřejmě nic neznamená, test žádnou vadu nenašel. Tipuju to na vadný či přehřátý řadič disků či northbridge, přesně takhle se to projevuje.
-
Sten + 1, řekl bych že je to jasný řadič.
-
:( doska uz bola reklamovana (vypadok prudu a lacna UPS, ale nikomu nehovorte :) ) - nefungovali PS/2 porty. cuduj sa svete to opravili. server je skladacka a bezi bez problemov 4 roky. je v klimatizovanej miestnosti (cca 21-22 stupnov). sensory:
fan1: 3006 RPM (min = 0 RPM)
fan2: 1212 RPM (min = 0 RPM)
fan7: 1142 RPM (min = 0 RPM)
temp1: +27.0°C (high = +100.0°C, hyst = +95.0°C) sensor = Intel PECI
temp2: +28.0°C (high = +100.0°C, hyst = +95.0°C) sensor = Intel PECI
temp5: +40.0°C (high = +100.0°C, hyst = +95.0°C) sensor = thermistor
temp6: +37.0°C (high = +100.0°C, hyst = +95.0°C) sensor = thermistor
teploty diskov 29-35 stupnov. nemohlo to by zdrojom? (asi sa obavam toho najhorsieho...)
-
To vypada spis na soft chybu, muze to zpusobit napriklad vypadek napajeni, kdy disk nestaci vse zapsat ze sve cache. Popr. jak zminovali predrecnici taky radic muze blbnout, popr. se v dnesnich teplotach prehrivat.
-
priklad soft chyby na mem disku (vypnuti ve spatnou chvili :-):
5 Reallocated_Sector_Ct 0x0033 097 097 005 Pre-fail Always - 227
Error 44 occurred at disk power-on lifetime: 24327 hours (1013 days + 15 hours)
Error 43 occurred at disk power-on lifetime: 24327 hours (1013 days + 15 hours)
Error 42 occurred at disk power-on lifetime: 24327 hours (1013 days + 15 hours)
Error 41 occurred at disk power-on lifetime: 24327 hours (1013 days + 15 hours)
Error 40 occurred at disk power-on lifetime: 24327 hours (1013 days + 15 hours)
Ten disk od te doby bezi dalsi 3 roky :)
-
:( doska uz bola reklamovana (vypadok prudu a lacna UPS, ale nikomu nehovorte :) ) - nefungovali PS/2 porty. cuduj sa svete to opravili. server je skladacka a bezi bez problemov 4 roky. je v klimatizovanej miestnosti (cca 21-22 stupnov). sensory:
fan1: 3006 RPM (min = 0 RPM)
fan2: 1212 RPM (min = 0 RPM)
fan7: 1142 RPM (min = 0 RPM)
temp1: +27.0°C (high = +100.0°C, hyst = +95.0°C) sensor = Intel PECI
temp2: +28.0°C (high = +100.0°C, hyst = +95.0°C) sensor = Intel PECI
temp5: +40.0°C (high = +100.0°C, hyst = +95.0°C) sensor = thermistor
temp6: +37.0°C (high = +100.0°C, hyst = +95.0°C) sensor = thermistor
teploty diskov 29-35 stupnov. nemohlo to by zdrojom? (asi sa obavam toho najhorsieho...)
Je dost pravděpodobné, že to neodnesly jen ty PS/2 porty. Zdroj by to být taky mohl, obzvlášť jestli dostal zásah nebo nemá moc velkou rezervu výkonu.
-
2Pavel: to by mohlo vysvetlit vznik chyb diskov
2Sten: tak som sa pozrel do evidencie. reklamacia bola pred rokom a pol a zdoj bol meneny pol roka pred tym - Seasonic M12II-520 Bronze - 2x XEON, 3x 8GB ram, 6x HDD - to by hadam mal utiahnut v pohode.
-
Klidně to mohlo zblbnout tak, že se právě nově objevil bad sector na tom jednom disku, při jeho čtení / zápisu to hodilo I/O error a timeout, což řadič nepobral, dokud ho po čase driver nezresetoval.
-
2Pavel: to by mohlo vysvetlit vznik chyb diskov
2Sten: tak som sa pozrel do evidencie. reklamacia bola pred rokom a pol a zdoj bol meneny pol roka pred tym - Seasonic M12II-520 Bronze - 2x XEON, 3x 8GB ram, 6x HDD - to by hadam mal utiahnut v pohode.
2 × Xeon může nárazově brát až 300 W (záleží na konkrétním typu)
6 × HDD může nárazově brát až 180 W
520 W je už potom dost na hraně. Výkon klesá jak s časem, tak i s teplotou. Není neobvyklé, aby 500 W zdroj při 40℃ dodával méně než 400 W.
-
tak vyzera to, ze ste asi mali pravdu vsetci. disky su zrejme vadne, a chyba je/bola zrejme aj v bud datovych alebo napajacich kabloch/zdroji (stale verim, ze to nie je radic :) ):
1. chyba: 14:46:31 - http://lime-technology.com/wiki/index.php/The_Analysis_of_Drive_Issues#Drive_interface_issue_.234 (http://lime-technology.com/wiki/index.php/The_Analysis_of_Drive_Issues#Drive_interface_issue_.234)
2. chyba: 15:11:36 - http://lime-technology.com/wiki/index.php/The_Analysis_of_Drive_Issues#Drive_media_issue_.231 (http://lime-technology.com/wiki/index.php/The_Analysis_of_Drive_Issues#Drive_media_issue_.231)
dakujem vsetkym za cenne rady :)
-
Vadné disky to téměř jistě nejsou. UNC znamená Uncorrectable, ale ve SMART logu žádné takové sektory nejsou, na rozdíl od informace, že řadič posílal nesmyslné požadavky, na které disk odpoví právě touhle chybou.
-
ok. takze radic alebo zdroj. chybu vadnych kablov (povytiahnuty napajaci/datovy) mozem vylucit (su tam dost zle kable, ktore maju siroke konektory a nedaju sa poriadne zasunut)?