Vadný disk

TkkTzz

Vadný disk
« kdy: 05. 02. 2013, 14:28:23 »
Zdravím,

dnes jsem nalezl v logu (/var/log/messages) následující

Kód: [Vybrat]
Feb  4 20:18:14 srv23 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Feb  4 20:18:14 srv23 kernel: ata1.00: (BMDMA stat 0x25)
Feb  4 20:18:14 srv23 kernel: ata1.00: cmd c8/00:08:e2:a5:4f/00:00:00:00:00/e8 tag 0 cdb 0x0 data 4096 in
Feb  4 20:18:14 srv23 kernel:          res 51/40:00:e6:a5:4f/00:00:00:00:00/e8 Emask 0x9 (media error)
Feb  4 20:18:14 srv23 kernel: ata1.00: configured for UDMA/133
Feb  4 20:18:14 srv23 kernel: ata1: EH complete

Zřéjmě se jedná o nefunkční bloky na disku. Měl někdo podobná problém? A jak jej dočasně vyřešit?

Děkuji za pomoc TkkTzz


Pavel 'TIGER' Růžička

Re:Vadný disk
« Odpověď #1 kdy: 05. 02. 2013, 14:36:37 »
A podíval jste se do smartu, překontroloval jste ten disk? Pokud skutečně obsahuje chyby, překopírovat na nový a jede se dál. Jinak kernel občas hlásí věci, které na funkčnost nemají žádný vliv. Nicméně nespoléhal bych na to bez hlubší analýzy disku.

TkkTzz

Re:Vadný disk
« Odpověď #2 kdy: 05. 02. 2013, 14:41:53 »
SMART zde:
Kód: [Vybrat]
smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     ST380811AS
Serial Number:    5PS0HTLL
Firmware Version: 3.AAE
User Capacity:    80,026,361,856 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Fri Aug 15 00:14:15 2003 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 430) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: (  27) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   072   006    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0003   096   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       59
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       16
  7 Seek_Error_Rate         0x000f   090   060   030    Pre-fail  Always       -       964674371
  9 Power_On_Hours          0x0032   053   053   000    Old_age   Always       -       41658
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       82
187 Unknown_Attribute       0x0032   001   001   000    Old_age   Always       -       569
189 Unknown_Attribute       0x003a   100   100   000    Old_age   Always       -       0
190 Unknown_Attribute       0x0022   061   052   045    Old_age   Always       -       656736295
194 Temperature_Celsius     0x0022   039   048   000    Old_age   Always       -       39 (Lifetime Min/Max 0/23)
195 Hardware_ECC_Recovered  0x001a   058   046   000    Old_age   Always       -       21501923
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 40084 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 40084 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 e6 a5 4f e8  Error: UNC at LBA = 0x084fa5e6 = 139437542

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 e2 a5 4f e8 00      00:04:48.353  READ DMA
  ec 03 46 00 00 00 a0 02      00:04:54.362  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:04:54.360  SET FEATURES [Set transfer mode]
  ec 00 00 e6 a5 4f a0 02      00:04:54.360  IDENTIFY DEVICE
  c8 00 08 e2 a5 4f e8 00      00:04:54.359  READ DMA

Error 40083 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 e6 a5 4f e8  Error: UNC at LBA = 0x084fa5e6 = 139437542

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 e2 a5 4f e8 00      00:04:48.353  READ DMA
  ec 03 46 00 00 00 a0 02      00:04:48.352  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:04:46.321  SET FEATURES [Set transfer mode]
  ec 00 00 e6 a5 4f a0 02      00:04:46.321  IDENTIFY DEVICE
  c8 00 08 e2 a5 4f e8 00      00:04:46.321  READ DMA

Error 40082 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 e6 a5 4f e8  Error: UNC at LBA = 0x084fa5e6 = 139437542

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 e2 a5 4f e8 00      00:04:48.353  READ DMA
  ec 03 46 00 00 00 a0 02      00:04:48.352  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:04:46.321  SET FEATURES [Set transfer mode]
  ec 00 00 e6 a5 4f a0 02      00:04:46.321  IDENTIFY DEVICE
  c8 00 08 e2 a5 4f e8 00      00:04:46.321  READ DMA

Error 40081 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 e6 a5 4f e8  Error: UNC at LBA = 0x084fa5e6 = 139437542

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 e2 a5 4f e8 00      00:04:48.353  READ DMA
  ec 03 46 00 00 00 a0 02      00:04:48.352  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:04:46.321  SET FEATURES [Set transfer mode]
  ec 00 00 e6 a5 4f a0 02      00:04:46.321  IDENTIFY DEVICE
  c8 00 08 e2 a5 4f e8 00      00:04:46.321  READ DMA

Error 40080 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 e6 a5 4f e8  Error: UNC at LBA = 0x084fa5e6 = 139437542

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 e2 a5 4f e8 00      00:04:44.315  READ DMA
  ca 00 18 82 ab 2b e8 00      00:04:44.313  WRITE DMA
  ca 00 20 52 ab 2b e8 00      00:04:46.321  WRITE DMA
  ca 00 10 3a ab 2b e8 00      00:04:46.321  WRITE DMA
  ca 00 08 22 ab 2b e8 00      00:04:46.321  WRITE DMA

SMART Self-test log structure revision number 1

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

RoboSVK

Re:Vadný disk
« Odpověď #3 kdy: 05. 02. 2013, 14:54:15 »
zahodit...

Jetset

Re:Vadný disk
« Odpověď #4 kdy: 05. 02. 2013, 16:29:53 »
Souhlasim s prispevkem prede mnou - okamzite zkopirovat co se da a disk zahodit. Prosly mi rukama stovky harddisku a vim o cem mluvim. Jakmile zacne disk hlasit jakekoliv errory, nepovazuji ho za spolehlivy. Ten tvuj ma navic najeto neco kolem 40 kilohodin, to je priblizne 5 let v kuse. Bud rad, ze jeste jakz takz jede. Ta skoro miliarda erroru vystaveni hlavicek by se sice mohla zdat hrozna, ale je to Seagate. Seagate je synonym seek erroru :-).
Mam zkusenosti s tim, ze v serverech harddisky vydrzi desitky kilohodin. Naopak v zarizenich, ktera se casto vypinaji a zapinaji je prumer tak 10 kilohodin. Ten tvuj byl zapnuty/vypnuty 82 krat, to je slusny pocet na 5 let provozu :-).


PanKapitanRUM

Re:Vadný disk
« Odpověď #5 kdy: 05. 02. 2013, 20:03:05 »
Ta skoro miliarda erroru vystaveni hlavicek by se sice mohla zdat hrozna, ale je to Seagate. Seagate je synonym seek erroru :-).

Atribut 7: "964674371"
Tedy "ta skoro miliarda", je hodnota složená ze dvou čísel, první je 16-ti bitové a druhé 32-bitové a to samé platí i pro atribut 195.
Proto je tam tak dlouhé číslo tedy pane "synonymum pro seek error".  ::)

Disk má hodně nalítáno, ale hlásí passed.

Neresetoval se náhodou nedávno bios neprováděla se instalace s novým jádrem::)
Je v biosu nastavený správný mód pro disk?

Zajímalo by mě, jestli by tu chybu dával i v režimu PIO.
Zjistil jsem, že nová jádra se starými IDE disky někdy úplně spokojeně nechroupou.
Jsem unavený a nechce se mi nad tím přemýšlet, zálohovat data je určitě dobrý nápad úplně vždy.

PanKapitanRUM

Re:Vadný disk
« Odpověď #6 kdy: 05. 02. 2013, 20:09:42 »
Dal jsem si tu práci a dohledal ten výpočet: http://www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html
Aby se to dalo spočítat, chtělo by to raw hodnotu v hexa jak je napsaná a ne zaokrouhlené číslo v desítkové soustavě.

Seagate tool na testování smart je poměrně spolehlivá utilita, která přesně vím, z čeho jsou které hodnoty poskládané.
http://www.seagate.com/support/downloads/seatools/

Pokud seagatetool řekne, že je disk v háji, je v háji.

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re:Vadný disk
« Odpověď #7 kdy: 05. 02. 2013, 20:36:16 »
Kdyz je ten disk tak podezrely, tak bych ho radsi testoval az po zaloze. Ten test by take nemusel prezit.

PanKapitanRUM

Re:Vadný disk
« Odpověď #8 kdy: 05. 02. 2013, 20:48:12 »
Kdo má rozum data zálohuje při prvních náznacích hrozby ztráty dat.

Pavol Herna

Re:Vadný disk
« Odpověď #9 kdy: 05. 02. 2013, 20:59:47 »
Ze všeho nejdřív je potřeba udělat zálohy. Jestli comp zmrzne u zálohování bez možnosti rozumě neco ukončit jsou tam vadné bloky. Po resetu bych spustil bych badblocks na daný disk. Takže jestli je vadný disk /dev/sda1 tak
Kód: [Vybrat]
badblocks /dev/sda1 > vadnebloky.bblockjestli to znova v nějaké fázy úplně zmrzne tak je asi čast disku v /dev/null. Skusil bych reset a podivat se na soubor vadnebloky.bblock jestli je tam fůra čisel tak je to jisty a objednával bych novej disk.
Jinak s diskem s vadnyma blokama jsem fungoval cca 2 měsíce max. To tak že jsem našel partici na který daný bloky byly a přestal ji používat nebo když byla moc velká přerozdelit disk tak aby na žádne partici nebyly vadné bloky ale je to jen dočasné řešení. Ten disk může vydržet už jenom 5 minut nebo dalších pár měsíců.

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re:Vadný disk
« Odpověď #10 kdy: 05. 02. 2013, 22:36:59 »
Kdo má rozum data zálohuje při prvních náznacích hrozby ztráty dat.

To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.

PanKapitanRUM

Re:Vadný disk
« Odpověď #11 kdy: 06. 02. 2013, 00:16:54 »
To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.

Například kamarád má na počítači tunu porna a WOWko ::)
Myslím, že s tím zálohováním opravdu může počkat až na první problémy  ;D
A věci co mám na počítáků já taky nejsou zrovna práce 12-ti největších klasiků  :P

Roman

Re:Vadný disk
« Odpověď #12 kdy: 06. 02. 2013, 00:33:47 »
nedávno jsem chtěl udělat image disku s vadnými sektory pomocí "cat", hlásilo to vždy chybu I/O. Páč v tom moc sběhlý nejsem sáhnul jsem po Clonezille a podařilo se vše v pořádku přenést na nový HDD. V nastavení bylo třeba zvolit, že při chybě čtení pokračovat.

Pavel 'TIGER' Růžička

Re:Vadný disk
« Odpověď #13 kdy: 06. 02. 2013, 01:32:44 »
To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.

Například kamarád má na počítači tunu porna a WOWko ::)
Myslím, že s tím zálohováním opravdu může počkat až na první problémy  ;D
A věci co mám na počítáků já taky nejsou zrovna práce 12-ti největších klasiků  :P

Tím myslíš, až ho navšíví prostata? :-D

PanKapitanRUM

Re:Vadný disk
« Odpověď #14 kdy: 06. 02. 2013, 02:11:30 »
Přesně to jsem myslel tygře  ;D