Fórum Root.cz
Hlavní témata => Server => Téma založeno: TkkTzz 05. 02. 2013, 14:28:23
-
Zdravím,
dnes jsem nalezl v logu (/var/log/messages) následující
Feb 4 20:18:14 srv23 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Feb 4 20:18:14 srv23 kernel: ata1.00: (BMDMA stat 0x25)
Feb 4 20:18:14 srv23 kernel: ata1.00: cmd c8/00:08:e2:a5:4f/00:00:00:00:00/e8 tag 0 cdb 0x0 data 4096 in
Feb 4 20:18:14 srv23 kernel: res 51/40:00:e6:a5:4f/00:00:00:00:00/e8 Emask 0x9 (media error)
Feb 4 20:18:14 srv23 kernel: ata1.00: configured for UDMA/133
Feb 4 20:18:14 srv23 kernel: ata1: EH complete
Zřéjmě se jedná o nefunkční bloky na disku. Měl někdo podobná problém? A jak jej dočasně vyřešit?
Děkuji za pomoc TkkTzz
-
A podíval jste se do smartu, překontroloval jste ten disk? Pokud skutečně obsahuje chyby, překopírovat na nový a jede se dál. Jinak kernel občas hlásí věci, které na funkčnost nemají žádný vliv. Nicméně nespoléhal bych na to bez hlubší analýzy disku.
-
SMART zde:
smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: ST380811AS
Serial Number: 5PS0HTLL
Firmware Version: 3.AAE
User Capacity: 80,026,361,856 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 7
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Fri Aug 15 00:14:15 2003 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 430) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 27) minutes.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 117 072 006 Pre-fail Always - 0
3 Spin_Up_Time 0x0003 096 095 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 59
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 16
7 Seek_Error_Rate 0x000f 090 060 030 Pre-fail Always - 964674371
9 Power_On_Hours 0x0032 053 053 000 Old_age Always - 41658
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 82
187 Unknown_Attribute 0x0032 001 001 000 Old_age Always - 569
189 Unknown_Attribute 0x003a 100 100 000 Old_age Always - 0
190 Unknown_Attribute 0x0022 061 052 045 Old_age Always - 656736295
194 Temperature_Celsius 0x0022 039 048 000 Old_age Always - 39 (Lifetime Min/Max 0/23)
195 Hardware_ECC_Recovered 0x001a 058 046 000 Old_age Always - 21501923
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0
SMART Error Log Version: 1
ATA Error Count: 40084 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 40084 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 e2 a5 4f e8 00 00:04:48.353 READ DMA
ec 03 46 00 00 00 a0 02 00:04:54.362 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 00:04:54.360 SET FEATURES [Set transfer mode]
ec 00 00 e6 a5 4f a0 02 00:04:54.360 IDENTIFY DEVICE
c8 00 08 e2 a5 4f e8 00 00:04:54.359 READ DMA
Error 40083 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 e2 a5 4f e8 00 00:04:48.353 READ DMA
ec 03 46 00 00 00 a0 02 00:04:48.352 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 00:04:46.321 SET FEATURES [Set transfer mode]
ec 00 00 e6 a5 4f a0 02 00:04:46.321 IDENTIFY DEVICE
c8 00 08 e2 a5 4f e8 00 00:04:46.321 READ DMA
Error 40082 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 e2 a5 4f e8 00 00:04:48.353 READ DMA
ec 03 46 00 00 00 a0 02 00:04:48.352 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 00:04:46.321 SET FEATURES [Set transfer mode]
ec 00 00 e6 a5 4f a0 02 00:04:46.321 IDENTIFY DEVICE
c8 00 08 e2 a5 4f e8 00 00:04:46.321 READ DMA
Error 40081 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 e2 a5 4f e8 00 00:04:48.353 READ DMA
ec 03 46 00 00 00 a0 02 00:04:48.352 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 00:04:46.321 SET FEATURES [Set transfer mode]
ec 00 00 e6 a5 4f a0 02 00:04:46.321 IDENTIFY DEVICE
c8 00 08 e2 a5 4f e8 00 00:04:46.321 READ DMA
Error 40080 occurred at disk power-on lifetime: 41658 hours (1735 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 e6 a5 4f e8 Error: UNC at LBA = 0x084fa5e6 = 139437542
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 e2 a5 4f e8 00 00:04:44.315 READ DMA
ca 00 18 82 ab 2b e8 00 00:04:44.313 WRITE DMA
ca 00 20 52 ab 2b e8 00 00:04:46.321 WRITE DMA
ca 00 10 3a ab 2b e8 00 00:04:46.321 WRITE DMA
ca 00 08 22 ab 2b e8 00 00:04:46.321 WRITE DMA
SMART Self-test log structure revision number 1
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
-
zahodit...
-
Souhlasim s prispevkem prede mnou - okamzite zkopirovat co se da a disk zahodit. Prosly mi rukama stovky harddisku a vim o cem mluvim. Jakmile zacne disk hlasit jakekoliv errory, nepovazuji ho za spolehlivy. Ten tvuj ma navic najeto neco kolem 40 kilohodin, to je priblizne 5 let v kuse. Bud rad, ze jeste jakz takz jede. Ta skoro miliarda erroru vystaveni hlavicek by se sice mohla zdat hrozna, ale je to Seagate. Seagate je synonym seek erroru :-).
Mam zkusenosti s tim, ze v serverech harddisky vydrzi desitky kilohodin. Naopak v zarizenich, ktera se casto vypinaji a zapinaji je prumer tak 10 kilohodin. Ten tvuj byl zapnuty/vypnuty 82 krat, to je slusny pocet na 5 let provozu :-).
-
Ta skoro miliarda erroru vystaveni hlavicek by se sice mohla zdat hrozna, ale je to Seagate. Seagate je synonym seek erroru :-).
Atribut 7: "964674371"
Tedy "ta skoro miliarda", je hodnota složená ze dvou čísel, první je 16-ti bitové a druhé 32-bitové a to samé platí i pro atribut 195.
Proto je tam tak dlouhé číslo tedy pane "synonymum pro seek error". ::)
Disk má hodně nalítáno, ale hlásí passed.
Neresetoval se náhodou nedávno bios neprováděla se instalace s novým jádrem? ::)
Je v biosu nastavený správný mód pro disk?
Zajímalo by mě, jestli by tu chybu dával i v režimu PIO.
Zjistil jsem, že nová jádra se starými IDE disky někdy úplně spokojeně nechroupou.
Jsem unavený a nechce se mi nad tím přemýšlet, zálohovat data je určitě dobrý nápad úplně vždy.
-
Dal jsem si tu práci a dohledal ten výpočet: http://www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html
Aby se to dalo spočítat, chtělo by to raw hodnotu v hexa jak je napsaná a ne zaokrouhlené číslo v desítkové soustavě.
Seagate tool na testování smart je poměrně spolehlivá utilita, která přesně vím, z čeho jsou které hodnoty poskládané.
http://www.seagate.com/support/downloads/seatools/
Pokud seagatetool řekne, že je disk v háji, je v háji.
-
Kdyz je ten disk tak podezrely, tak bych ho radsi testoval az po zaloze. Ten test by take nemusel prezit.
-
Kdo má rozum data zálohuje při prvních náznacích hrozby ztráty dat.
-
Ze všeho nejdřív je potřeba udělat zálohy. Jestli comp zmrzne u zálohování bez možnosti rozumě neco ukončit jsou tam vadné bloky. Po resetu bych spustil bych badblocks na daný disk. Takže jestli je vadný disk /dev/sda1 tak
badblocks /dev/sda1 > vadnebloky.bblock
jestli to znova v nějaké fázy úplně zmrzne tak je asi čast disku v /dev/null. Skusil bych reset a podivat se na soubor vadnebloky.bblock jestli je tam fůra čisel tak je to jisty a objednával bych novej disk.
Jinak s diskem s vadnyma blokama jsem fungoval cca 2 měsíce max. To tak že jsem našel partici na který daný bloky byly a přestal ji používat nebo když byla moc velká přerozdelit disk tak aby na žádne partici nebyly vadné bloky ale je to jen dočasné řešení. Ten disk může vydržet už jenom 5 minut nebo dalších pár měsíců.
-
Kdo má rozum data zálohuje při prvních náznacích hrozby ztráty dat.
To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.
-
To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.
Například kamarád má na počítači tunu porna a WOWko ::)
Myslím, že s tím zálohováním opravdu může počkat až na první problémy ;D
A věci co mám na počítáků já taky nejsou zrovna práce 12-ti největších klasiků :P
-
nedávno jsem chtěl udělat image disku s vadnými sektory pomocí "cat", hlásilo to vždy chybu I/O. Páč v tom moc sběhlý nejsem sáhnul jsem po Clonezille a podařilo se vše v pořádku přenést na nový HDD. V nastavení bylo třeba zvolit, že při chybě čtení pokračovat.
-
To uz muze byt pozde. Rozumny clovek zalohuje i predtim, aspon obcas.
Například kamarád má na počítači tunu porna a WOWko ::)
Myslím, že s tím zálohováním opravdu může počkat až na první problémy ;D
A věci co mám na počítáků já taky nejsou zrovna práce 12-ti největších klasiků :P
Tím myslíš, až ho navšíví prostata? :-D
-
Přesně to jsem myslel tygře ;D
-
Například kamarád má na počítači tunu porna a WOWko ::)
Myslím, že s tím zálohováním opravdu může počkat až na první problémy ;D
A věci co mám na počítáků já taky nejsou zrovna práce 12-ti největších klasiků :P
Budiz, kdyz chces riskovat celozivotni sbirku porna.... :-)
Nicmene se hodi alespon castecna zaloha. GPG klicenka, konfigurace veci, jako mailer, soubor s adresami nebo rovnou i vsechny maily, pokud jsou dulezite, IM... Ztrata GPG klicu je pruser a ztrata konfigurace je otrava, protoze to clovek musi udelat vsechno znova.
-
No von ma pending sectors 1, takze nejmin jeden necitelnej (asi vic). Navrhuji postup:
1. Zaloha pomoci ddrescue
2. Prepsat disk badblocks -w, jestli na konci bude 0 bad blocks, tak je "vyleceny" (preamapoval sektory)
3. Kontrola smartctl -t long treba jednou mesicne