Fórum Root.cz

Hlavní témata => Server => Téma založeno: TkkTzz 05. 02. 2013, 14:28:23

Název: Vadný disk
Přispěvatel: TkkTzz 05. 02. 2013, 14:28:23: Zdravím,

dnes jsem nalezl v logu (/var/log/messages) následující

Kód: [Vybrat]
Feb 4 20:18:14 srv23 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Feb 4 20:18:14 srv23 kernel: ata1.00: (BMDMA stat 0x25) Feb 4 20:18:14 srv23 kernel: ata1.00: cmd c8/00:08:e2:a5:4f/00:00:00:00:00/e8 tag 0 cdb 0x0 data 4096 in Feb 4 20:18:14 srv23 kernel: res 51/40:00:e6:a5:4f/00:00:00:00:00/e8 Emask 0x9 (media error) Feb 4 20:18:14 srv23 kernel: ata1.00: configured for UDMA/133 Feb 4 20:18:14 srv23 kernel: ata1: EH complete
Zřéjmě se jedná o nefunkční bloky na disku. Měl někdo podobná problém? A jak jej dočasně vyřešit?

Děkuji za pomoc TkkTzz
Název: Re:Vadný disk
Přispěvatel: Pavel 'TIGER' Růžička 05. 02. 2013, 14:36:37: A podíval jste se do smartu, překontroloval jste ten disk? Pokud skutečně obsahuje chyby, překopírovat na nový a jede se dál. Jinak kernel občas hlásí věci, které na funkčnost nemají žádný vliv. Nicméně nespoléhal bych na to bez hlubší analýzy disku.
Název: Re:Vadný disk
Přispěvatel: TkkTzz 05. 02. 2013, 14:41:53: SMART zde:
Kód: [Vybrat]
smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Device Model: ST380811AS Serial Number: 5PS0HTLL Firmware Version: 3.AAE User Capacity: 80,026,361,856 bytes Device is: Not in smartctl database [for details use: -P showall] ATA Version is: 7 ATA Standard is: Exact ATA specification draft version not indicated Local Time is: Fri Aug 15 00:14:15 2003 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 430) seconds. Offline data collection capabilities: (0x5b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 27) minutes. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 117 072 006 Pre-fail Always - 0 3 Spin_Up_Time 0x0003 096 095 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 59 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 16 7 Seek_Error_Rate 0x000f 090 060 030 Pre-fail Always - 964674371 9 Power_On_Hours 0x0032 053 053 000 Old_age Always - 41658 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 82 187 Unknown_Attribute 0x0032 001 001 000 Old_age Always - 569 189 Unknown_Attribute 0x003a 100 100 000 Old_age Always - 0 190 Unknown_Attribute 0x0022 061 052 045 Old_age Always - 656736295 194 Temperature_Celsius 0x0022 039 048 000 Old_age Always - 39 (Lifetime Min/Max 0/23) 195 Hardware_ECC_Recovered 0x001a 058 046 000 Old_age Always - 21501923 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0 SMART Error Log Version: 1 ATA Error Count: 40084 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 40084 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 e2 a5 4f e8 00 00:04:48.353 READ DMA ec 03 46 00 00 00 a0 02 00:04:54.362 IDENTIFY DEVICE ef 03 46 00 00 00 a0 00 00:04:54.360 SET FEATURES [Set transfer mode] ec 00 00 e6 a5 4f a0 02 00:04:54.360 IDENTIFY DEVICE c8 00 08 e2 a5 4f e8 00 00:04:54.359 READ DMA Error 40083 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 e2 a5 4f e8 00 00:04:48.353 READ DMA ec 03 46 00 00 00 a0 02 00:04:48.352 IDENTIFY DEVICE ef 03 46 00 00 00 a0 00 00:04:46.321 SET FEATURES [Set transfer mode] ec 00 00 e6 a5 4f a0 02 00:04:46.321 IDENTIFY DEVICE c8 00 08 e2 a5 4f e8 00 00:04:46.321 READ DMA Error 40082 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 e2 a5 4f e8 00 00:04:48.353 READ DMA ec 03 46 00 00 00 a0 02 00:04:48.352 IDENTIFY DEVICE ef 03 46 00 00 00 a0 00 00:04:46.321 SET FEATURES [Set transfer mode] ec 00 00 e6 a5 4f a0 02 00:04:46.321 IDENTIFY DEVICE c8 00 08 e2 a5 4f e8 00 00:04:46.321 READ DMA Error 40081 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 e2 a5 4f e8 00 00:04:48.353 READ DMA ec 03 46 00 00 00 a0 02 00:04:48.352 IDENTIFY DEVICE ef 03 46 00 00 00 a0 00 00:04:46.321 SET FEATURES [Set transfer mode] ec 00 00 e6 a5 4f a0 02 00:04:46.321 IDENTIFY DEVICE c8 00 08 e2 a5 4f e8 00 00:04:46.321 READ DMA Error 40080 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 e2 a5 4f e8 00 00:04:44.315 READ DMA ca 00 18 82 ab 2b e8 00 00:04:44.313 WRITE DMA ca 00 20 52 ab 2b e8 00 00:04:46.321 WRITE DMA ca 00 10 3a ab 2b e8 00 00:04:46.321 WRITE DMA ca 00 08 22 ab 2b e8 00 00:04:46.321 WRITE DMA SMART Self-test log structure revision number 1 SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.
Název: Re:Vadný disk
Přispěvatel: RoboSVK 05. 02. 2013, 14:54:15: zahodit...
Název: Re:Vadný disk
Přispěvatel: Jetset 05. 02. 2013, 16:29:53: Souhlasim s prispevkem prede mnou - okamzite zkopirovat co se da a disk zahodit. Prosly mi rukama stovky harddisku a vim o cem mluvim. Jakmile zacne disk hlasit jakekoliv errory, nepovazuji ho za spolehlivy. Ten tvuj ma navic najeto neco kolem 40 kilohodin, to je priblizne 5 let v kuse. Bud rad, ze jeste jakz takz jede. Ta skoro miliarda erroru vystaveni hlavicek by se sice mohla zdat hrozna, ale je to Seagate. Seagate je synonym seek erroru :-).
Mam zkusenosti s tim, ze v serverech harddisky vydrzi desitky kilohodin. Naopak v zarizenich, ktera se casto vypinaji a zapinaji je prumer tak 10 kilohodin. Ten tvuj byl zapnuty/vypnuty 82 krat, to je slusny pocet na 5 let provozu :-).
Název: Re:Vadný disk
Přispěvatel: PanKapitanRUM 05. 02. 2013, 20:03:05: Citace: Jetset 05. 02. 2013, 16:29:53
Ta skoro miliarda erroru vystaveni hlavicek by se sice mohla zdat hrozna, ale je to Seagate. Seagate je synonym seek erroru :-).

Atribut 7: "964674371"
Tedy "ta skoro miliarda", je hodnota složená ze dvou čísel, první je 16-ti bitové a druhé 32-bitové a to samé platí i pro atribut 195.
Proto je tam tak dlouhé číslo tedy pane "synonymum pro seek error". ::)

Disk má hodně nalítáno, ale hlásí passed.

Neresetoval se náhodou nedávno bios neprováděla se instalace s novým jádrem? ::)
Je v biosu nastavený správný mód pro disk?
Zajímalo by mě, jestli by tu chybu dával i v režimu PIO.
Zjistil jsem, že nová jádra se starými IDE disky někdy úplně spokojeně nechroupou.
Jsem unavený a nechce se mi nad tím přemýšlet, zálohovat data je určitě dobrý nápad úplně vždy.
Název: Re:Vadný disk
Přispěvatel: PanKapitanRUM 05. 02. 2013, 20:09:42: Dal jsem si tu práci a dohledal ten výpočet: http://www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html
Aby se to dalo spočítat, chtělo by to raw hodnotu v hexa jak je napsaná a ne zaokrouhlené číslo v desítkové soustavě.

Seagate tool na testování smart je poměrně spolehlivá utilita, která přesně vím, z čeho jsou které hodnoty poskládané.
http://www.seagate.com/support/downloads/seatools/

Pokud seagatetool řekne, že je disk v háji, je v háji.
Název: Re:Vadný disk
Přispěvatel: JardaP . 05. 02. 2013, 20:36:16: Kdyz je ten disk tak podezrely, tak bych ho radsi testoval az po zaloze. Ten test by take nemusel prezit.
Název: Re:Vadný disk
Přispěvatel: PanKapitanRUM 05. 02. 2013, 20:48:12: Kdo má rozum data zálohuje při prvních náznacích hrozby ztráty dat.
Název: Re:Vadný disk
Přispěvatel: Pavol Herna 05. 02. 2013, 20:59:47: Ze všeho nejdřív je potřeba udělat zálohy. Jestli comp zmrzne u zálohování bez možnosti rozumě neco ukončit jsou tam vadné bloky. Po resetu bych spustil bych badblocks na daný disk. Takže jestli je vadný disk /dev/sda1 tak
Kód: [Vybrat]
badblocks /dev/sda1 > vadnebloky.bblockjestli to znova v nějaké fázy úplně zmrzne tak je asi čast disku v /dev/null. Skusil bych reset a podivat se na soubor vadnebloky.bblock jestli je tam fůra čisel tak je to jisty a objednával bych novej disk.
Jinak s diskem s vadnyma blokama jsem fungoval cca 2 měsíce max. To tak že jsem našel partici na který daný bloky byly a přestal ji používat nebo když byla moc velká přerozdelit disk tak aby na žádne partici nebyly vadné bloky ale je to jen dočasné řešení. Ten disk může vydržet už jenom 5 minut nebo dalších pár měsíců.
Název: Re:Vadný disk
Přispěvatel: JardaP . 05. 02. 2013, 22:36:59: Citace: PanKapitanRUM 05. 02. 2013, 20:48:12
Kdo má rozum data zálohuje při prvních náznacích hrozby ztráty dat.

To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.
Název: Re:Vadný disk
Přispěvatel: PanKapitanRUM 06. 02. 2013, 00:16:54: Citace: JardaP . 05. 02. 2013, 22:36:59
To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.

Například kamarád má na počítači tunu porna a WOWko ::)
Myslím, že s tím zálohováním opravdu může počkat až na první problémy ;D
A věci co mám na počítáků já taky nejsou zrovna práce 12-ti největších klasiků :P
Název: Re:Vadný disk
Přispěvatel: Roman 06. 02. 2013, 00:33:47: nedávno jsem chtěl udělat image disku s vadnými sektory pomocí "cat", hlásilo to vždy chybu I/O. Páč v tom moc sběhlý nejsem sáhnul jsem po Clonezille a podařilo se vše v pořádku přenést na nový HDD. V nastavení bylo třeba zvolit, že při chybě čtení pokračovat.
Název: Re:Vadný disk
Přispěvatel: Pavel 'TIGER' Růžička 06. 02. 2013, 01:32:44: Citace: PanKapitanRUM 06. 02. 2013, 00:16:54
Citace: JardaP . 05. 02. 2013, 22:36:59
To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.

Například kamarád má na počítači tunu porna a WOWko ::)
Myslím, že s tím zálohováním opravdu může počkat až na první problémy ;D
A věci co mám na počítáků já taky nejsou zrovna práce 12-ti největších klasiků :P

Tím myslíš, až ho navšíví prostata? :-D
Název: Re:Vadný disk
Přispěvatel: PanKapitanRUM 06. 02. 2013, 02:11:30: Přesně to jsem myslel tygře ;D
Název: Re:Vadný disk
Přispěvatel: JardaP . 06. 02. 2013, 09:11:42: Citace: PanKapitanRUM 06. 02. 2013, 00:16:54
Například kamarád má na počítači tunu porna a WOWko ::)
Myslím, že s tím zálohováním opravdu může počkat až na první problémy ;D
A věci co mám na počítáků já taky nejsou zrovna práce 12-ti největších klasiků :P

Budiz, kdyz chces riskovat celozivotni sbirku porna.... :-)

Nicmene se hodi alespon castecna zaloha. GPG klicenka, konfigurace veci, jako mailer, soubor s adresami nebo rovnou i vsechny maily, pokud jsou dulezite, IM... Ztrata GPG klicu je pruser a ztrata konfigurace je otrava, protoze to clovek musi udelat vsechno znova.
Název: Re:Vadný disk
Přispěvatel: Trubicoid2 06. 02. 2013, 10:46:55: No von ma pending sectors 1, takze nejmin jeden necitelnej (asi vic). Navrhuji postup:

1. Zaloha pomoci ddrescue
2. Prepsat disk badblocks -w, jestli na konci bude 0 bad blocks, tak je "vyleceny" (preamapoval sektory)
3. Kontrola smartctl -t long treba jednou mesicne