Chyba disku vs. chyba souborového systému

Chyba disku vs. chyba souborového systému
« kdy: 24. 01. 2021, 15:52:15 »
Ahojte,
v minulosti som mal nejake probelmy s externym diskom na ktorom som mal NTFS a bol pouzivany na Windowse a Linuxe. Ak si dobre spominam tak v Linuxe som si vsimol Input/output error a vo Windowse (bolo to davnejsie tak detaily z nepamatam) sa jednalo o nieco take ze checksum suboru nesedel po tom co bol nakopirovany na tento disk. Na tomto disku su prevazne multimedia. Tento disk som teda odlozil bokom a vcera som zacal jeho zachranu a to nasledovne:

Na novom disku som vytvoril miesto pre ddrescue image
Kód: [Vybrat]
root@ryzen:~# zpool create datastore /dev/sdc

Naklonoval som si teda tento disk cez ddrescue a vyzera ze to zbehlo bez najmensich problemov (PC bol sice vypnuty aleto je iny pribeh https://forum.root.cz/index.php?topic=24195.msg343752):
Kód: [Vybrat]
root@ryzen:/datastore# ddrescue -v -d -n /dev/sdd1 img.img img.log

root@ryzen:/datastore# ddrescue -v -d -r 3 /dev/sdd1 img.img img.log
GNU ddrescue 1.23
About to copy 2000 GBytes from '/dev/sdd1' to 'img.img'
    Starting positions: infile = 0 B,  outfile = 0 B
    Copy block size: 128 sectors       Initial skip size: 39168 sectors
Sector size: 512 Bytes

Press Ctrl-C to interrupt
Initial status (read from mapfile)
rescued: 2000 GB, tried: 0 B, bad-sector: 0 B, bad areas: 0

Current status
     ipos:        0 B, non-trimmed:        0 B,  current rate:       0 B/s
     opos:        0 B, non-scraped:        0 B,  average rate:       0 B/s
non-tried:        0 B,  bad-sector:        0 B,    error rate:       0 B/s
  rescued:    2000 GB,   bad areas:        0,        run time:          0s
pct rescued:  100.00%, read errors:        0,  remaining time:         n/a
                              time since last successful read:         n/a
Finished

root@ryzen:/datastore# cat img.log
# Mapfile. Created by GNU ddrescue version 1.23
# Command line: ddrescue -v -d -r 3 /dev/sdd1 img.img img.log
# Start time:   2021-01-24 11:03:07
# Current time: 2021-01-24 11:03:07
# Finished
# current_pos  current_status  current_pass
0x1D1C0E90000     +               1
#      pos        size  status
0x00000000  0x1D1C0E98200  +


Nasledne som ddrescue image mountol ako read only a tiez vsetko vyzera byt OK
Kód: [Vybrat]
root@ryzen:/datastore# mount -o ro /datastore/img.img /mnt/SAMSUNG_2TB

root@ryzen:/datastore# df -hT
Filesystem           Type      Size  Used Avail Use% Mounted on
udev                 devtmpfs   16G     0   16G   0% /dev
tmpfs                tmpfs     3.2G  9.2M  3.2G   1% /run
/dev/mapper/pve-root ext4       57G  2.1G   52G   4% /
tmpfs                tmpfs      16G   25M   16G   1% /dev/shm
tmpfs                tmpfs     5.0M     0  5.0M   0% /run/lock
tmpfs                tmpfs      16G     0   16G   0% /sys/fs/cgroup
/dev/sdb2            vfat      511M  312K  511M   1% /boot/efi
datastore            zfs       3.6T  1.9T  1.7T  52% /datastore
/dev/fuse            fuse       30M   16K   30M   1% /etc/pve
tmpfs                tmpfs     3.2G     0  3.2G   0% /run/user/0
/dev/loop0           ntfs      1.9T  1.1T  771G  59% /mnt/SAMSUNG_2TB


Vsimol som si vsak ze v jednom pripade je problem s pristupom ku suboru
Kód: [Vybrat]
root@ryzen:/mnt/SAMSUNG_2TB# du -sh * | sort -h
du: cannot access 'EDU_VIDEOS/coursera/Coursera - Stanford University - Jeff Ulman - Automata/02 - Week 2 Regular Expression and Properties of Regular Languages/03 - 7. Decision algorithms for regular languages (41 min.)/7_rs1.pdf': Input/output error


Vylistoval som si teda vsetky subory na mountnutom disku a aplikoval na ne ls aby som videl ci je este niekde problem s citanim a toto je vysledok:
Kód: [Vybrat]
root@ryzen:/datastore# find /mnt/SAMSUNG_2TB -exec ls -la {} \; > list_of_files.txt 2>&1

root@ryzen:/datastore# grep 'Input\/output error' list_of_files.txt
ls: cannot access '/mnt/SAMSUNG_2TB/EDU_VIDEOS/coursera/Coursera - Stanford University - Jeff Ulman - Automata/02 - Week 2 Regular Expression and Properties of Regular Languages/03 - 7. Decision algorithms for regular languages (41 min.)/7_rs1.pdf': Input/output error
ls: cannot access '/mnt/SAMSUNG_2TB/EDU_VIDEOS/coursera/Coursera - Stanford University - Jeff Ulman - Automata/02 - Week 2 Regular Expression and Properties of Regular Languages/03 - 7. Decision algorithms for regular languages (41 min.)/7_rs1.pdf': Input/output error

root@ryzen:/datastore# grep '\?' list_of_files.txt
-????????? ? ?    ?           ?            ? 7_rs1.pdf

Vyzera to teda ze az na tento jeden subor je cely FS vporiadku.

Pripajam aj vypisy z logov

Kód: [Vybrat]
root@ryzen:/datastore# dmesg | egrep 'sd[a-d]|ntfs'
[    1.694636] sd 3:0:0:0: [sda] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
[    1.694637] sd 3:0:0:0: [sda] 4096-byte physical blocks
[    1.694642] sd 3:0:0:0: [sda] Write Protect is off
[    1.694643] sd 3:0:0:0: [sda] Mode Sense: 00 3a 00 00
[    1.694650] sd 3:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    1.709774] sd 4:0:0:0: [sdb] 488397168 512-byte logical blocks: (250 GB/233 GiB)
[    1.709781] sd 4:0:0:0: [sdb] Write Protect is off
[    1.709782] sd 4:0:0:0: [sdb] Mode Sense: 00 3a 00 00
[    1.709792] sd 4:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    1.715693] sd 8:0:0:0: [sdc] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
[    1.715694] sd 8:0:0:0: [sdc] 4096-byte physical blocks
[    1.715697] sd 8:0:0:0: [sdc] Write Protect is off
[    1.715699] sd 8:0:0:0: [sdc] Mode Sense: 00 3a 00 00
[    1.715704] sd 8:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    1.726181]  sdb: sdb1 sdb2 sdb3
[    1.727350] sd 4:0:0:0: [sdb] supports TCG Opal
[    1.727351] sd 4:0:0:0: [sdb] Attached SCSI removable disk
[    1.735545] sd 3:0:0:0: [sda] Attached SCSI removable disk
[    1.811147]  sdc: sdc1 sdc9
[    1.811374] sd 8:0:0:0: [sdc] Attached SCSI removable disk
[    2.598413] sd 10:0:0:0: [sdd] 3907029167 512-byte logical blocks: (2.00 TB/1.82 TiB)
[    2.598904] sd 10:0:0:0: [sdd] Write Protect is off
[    2.598905] sd 10:0:0:0: [sdd] Mode Sense: 2b 00 10 08
[    2.599394] sd 10:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
[    3.030878]  sdd: sdd1
[    3.032673] sd 10:0:0:0: [sdd] Attached SCSI disk
[ 1041.102751] ntfs: driver 2.1.32 [Flags: R/O MODULE].
[ 1041.105653] ntfs: volume version 3.1.
[ 1268.754273] __ntfs_error: 6 callbacks suppressed
[ 1268.754274] ntfs: (device loop0): map_mft_record_page(): Mft record 0x1c52 is corrupt.  Run chkdsk.
[ 1268.754287] ntfs: (device loop0): map_mft_record(): Failed with error code 5.
[ 1268.754292] ntfs: (device loop0): ntfs_read_locked_inode(): Failed with error code -5.  Marking corrupt inode 0x1c52 as bad.  Run chkdsk.

root@ryzen:/datastore# grep 'sd[a-d]' /var/log/messages
Jan 24 02:09:38 ryzen kernel: [ 3173.161789]  sdc: sdc1 sdc9
Jan 24 02:44:10 ryzen kernel: [ 5245.471556] sd 10:0:0:0: [sdd] Spinning up disk...
Jan 24 02:44:18 ryzen kernel: [ 5253.021523] sd 10:0:0:0: [sdd] 3907029167 512-byte logical blocks: (2.00 TB/1.82 TiB)
Jan 24 02:44:18 ryzen kernel: [ 5253.022028] sd 10:0:0:0: [sdd] Write Protect is off
Jan 24 02:44:18 ryzen kernel: [ 5253.022520] sd 10:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
Jan 24 02:44:18 ryzen kernel: [ 5253.050368]  sdd: sdd1
Jan 24 02:44:18 ryzen kernel: [ 5253.051833] sd 10:0:0:0: [sdd] Attached SCSI disk
Jan 24 10:48:37 ryzen kernel: [    1.694636] sd 3:0:0:0: [sda] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
Jan 24 10:48:37 ryzen kernel: [    1.694637] sd 3:0:0:0: [sda] 4096-byte physical blocks
Jan 24 10:48:37 ryzen kernel: [    1.694642] sd 3:0:0:0: [sda] Write Protect is off
Jan 24 10:48:37 ryzen kernel: [    1.694650] sd 3:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jan 24 10:48:37 ryzen kernel: [    1.709774] sd 4:0:0:0: [sdb] 488397168 512-byte logical blocks: (250 GB/233 GiB)
Jan 24 10:48:37 ryzen kernel: [    1.709781] sd 4:0:0:0: [sdb] Write Protect is off
Jan 24 10:48:37 ryzen kernel: [    1.709792] sd 4:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jan 24 10:48:37 ryzen kernel: [    1.715693] sd 8:0:0:0: [sdc] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
Jan 24 10:48:37 ryzen kernel: [    1.715694] sd 8:0:0:0: [sdc] 4096-byte physical blocks
Jan 24 10:48:37 ryzen kernel: [    1.715697] sd 8:0:0:0: [sdc] Write Protect is off
Jan 24 10:48:37 ryzen kernel: [    1.715704] sd 8:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jan 24 10:48:37 ryzen kernel: [    1.726181]  sdb: sdb1 sdb2 sdb3
Jan 24 10:48:37 ryzen kernel: [    1.727350] sd 4:0:0:0: [sdb] supports TCG Opal
Jan 24 10:48:37 ryzen kernel: [    1.727351] sd 4:0:0:0: [sdb] Attached SCSI removable disk
Jan 24 10:48:37 ryzen kernel: [    1.735545] sd 3:0:0:0: [sda] Attached SCSI removable disk
Jan 24 10:48:37 ryzen kernel: [    1.811147]  sdc: sdc1 sdc9
Jan 24 10:48:37 ryzen kernel: [    1.811374] sd 8:0:0:0: [sdc] Attached SCSI removable disk
Jan 24 10:48:37 ryzen kernel: [    2.598413] sd 10:0:0:0: [sdd] 3907029167 512-byte logical blocks: (2.00 TB/1.82 TiB)
Jan 24 10:48:37 ryzen kernel: [    2.598904] sd 10:0:0:0: [sdd] Write Protect is off
Jan 24 10:48:37 ryzen kernel: [    2.599394] sd 10:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
Jan 24 10:48:37 ryzen kernel: [    3.030878]  sdd: sdd1
Jan 24 10:48:37 ryzen kernel: [    3.032673] sd 10:0:0:0: [sdd] Attached SCSI disk

Co z tohoto mozem usidit?
1. Je Disk je OK (nakolko ho ddrescue naklonoval) a poskodeny je len subor 7_rs1.pdf resp samotny FS?
2. Co este mozem skusit aby som sa uistil ze disk/FS je OK?
3. Tym ze je image ulozeny na ZFS mozem si spravit nejaku zalohu cez snapshot pred tym nez skusim nejake tooly na opravovanie imageu? ddrescue image ma cca 1.9T, disk ma 4T (realne cca 3.6T) a zostava mi cca 1.7T volneho miesta, takze klasicku kopiu cez cp nespravim lebo nemam miesto.
4. V akom stave su nastroje na pracu s NTFS pod linuxom, je lepsie subor opravit vo Windowse alebo Linuxe? Tu https://unix.stackexchange.com/questions/39905/input-output-error-when-accessing-a-directory sa spomina ntfs vs ntfs-3g ale je to niekolko rokov stary clanok.
5. Bolo by mozne tento image dostat do Windowsu a opravit ho tam? Ak ano ako? Rozmyslam nieco na styl ze: spravit virtualku s Windowsom a do nej nejako "mountnut" tento image ako disk nad ktorym uz mozem pustat windows utility. Je nieco take mozne?
6. Ma vobec zmysel opravovat tento image ked vyzera ze vsetko az na jeden subor je OK?
7. Co mohlo sposobit chyby ktore opisujem v uvode?

Dakujem
« Poslední změna: 24. 01. 2021, 18:39:46 od Petr Krčmář »


Re:chyba disku vs chyba file systemu
« Odpověď #1 kdy: 24. 01. 2021, 16:26:46 »
Chyba je v NTFS, disk se zdá OK. Ještě by to chtělo se podívat na SMART a  případně udělat SMART long test.

NTFS opravit jedině v nějakém Windows 10 fsck -f d:, v Linuxu ty nástroje pro NTFS nefungují dobře

Re:chyba disku vs chyba file systemu
« Odpověď #2 kdy: 24. 01. 2021, 23:09:27 »
Chyba je v NTFS, disk se zdá OK. Ještě by to chtělo se podívat na SMART a  případně udělat SMART long test.

NTFS opravit jedině v nějakém Windows 10 fsck -f d:, v Linuxu ty nástroje pro NTFS nefungují dobře

Vdaka za odpoved, spominany disk je externy USB disk takze trosku som sa potrapil kym som spustil test. Napisem to tu mozno sa to niekomu hodi. Skusal som teda nasledovne prikazy.

Kód: [Vybrat]
root@ryzen:/datastore# smartctl -a /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

/dev/sdd: Unknown USB bridge [0x04e8:0x6123 (0x202)]
Please specify device type with the -d option.

Use smartctl -h to get a usage summary

Kód: [Vybrat]
root@ryzen:/datastore# smartctl -a -d scsi /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               Samsung
Product:              D3 Station
Revision:             0202
Compliance:           SPC-4
User Capacity:        2,000,398,933,504 bytes [2.00 TB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=12 offset=12 bd_len=8
scsiModePageOffset: response length too short, resp_len=12 offset=12 bd_len=8
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.


Po nejakom case som natrafil na toto https://www.smartmontools.org/wiki/Supported_USB-Devices
 kde sa vyuziva prevazne parameter -d sat tak som ho teda skusil a vyzera ze snim to ide. Avsak je to pre mna spanielska dedina, kopec parametrov a neviem ktory pozerat?

Kód: [Vybrat]
root@ryzen:/datastore# smartctl -a -d sat /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST2000DM001-1E6164
Serial Number:    W1E903F0
LU WWN Device Id: 5 000c50 07d3083c7
Firmware Version: SC48
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Jan 24 22:56:24 2021 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (  584) seconds.
Offline data collection
capabilities: (0x73) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 232) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x3081) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   112   100   006    Pre-fail  Always       -       46561336
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       67
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       30065554952
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       126
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       53
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   001   000    Old_age   Always       -       7 7 65535
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   052   045   045    Old_age   Always   In_the_past 48 (Min/Max 21/51)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       765
194 Temperature_Celsius     0x0022   048   055   000    Old_age   Always       -       48 (0 20 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       46h+09m+29.567s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       846975072
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       4754652485

SMART Error Log Version: 1
ATA Error Count: 2
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 2 occurred at disk power-on lifetime: 63 hours (2 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff 4f 00      00:00:12.218  READ DMA EXT
  25 00 08 c0 05 60 40 00      00:00:12.217  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:12.210  READ DMA EXT
  25 00 28 ff ff ff 4f 00      00:00:12.149  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:11.675  READ DMA EXT

Error 1 occurred at disk power-on lifetime: 63 hours (2 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff 4f 00      00:00:12.218  READ DMA EXT
  25 00 08 c0 05 60 40 00      00:00:12.217  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:12.210  READ DMA EXT
  25 00 28 ff ff ff 4f 00      00:00:12.149  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:11.675  READ DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       126         -
# 2  Short offline       Aborted by host               70%       126         -
# 3  Short offline       Completed without error       00%       126         -
# 4  Short offline       Completed without error       00%       126         -
# 5  Short offline       Completed without error       00%       106         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Este som nasiel tento report tak neviem ci to povie nieco vac
Kód: [Vybrat]
root@ryzen:~# smartctl -H -d sat /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Please note the following marginal Attributes:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
190 Airflow_Temperature_Cel 0x0022   052   045   045    Old_age   Always   In_the_past 48 (Min/Max 21/51)

Test som spustil takto
Kód: [Vybrat]
smartctl -t long -d sat /dev/sdd
progress monitorujem takto
Kód: [Vybrat]
watch 'smartctl -c -d sat /dev/sdd | grep progress -A 1'
watch 'smartctl -a -d sat /dev/sdd | grep progress'

Ako sa nasledne dostanem ku vysledkom? Ked som to skusal so short test tak v konzolach kde monitorjuem progress vidim ze test skoncil ale v kozole kde som spustal test nevidim nic.

Dakujem

Re:chyba disku vs chyba file systemu
« Odpověď #3 kdy: 25. 01. 2021, 09:00:55 »
Ako sa nasledne dostanem ku vysledkom? Ked som to skusal so short test tak v konzolach kde monitorjuem progress vidim ze test skoncil ale v kozole kde som spustal test nevidim nic.


Ok takze tu je vysledok z dlheho testu http://paste.debian.net/1182666
Kód: [Vybrat]
root@ryzen:~# smartctl -a -d sat /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST2000DM001-1E6164
Serial Number:    W1E903F0
LU WWN Device Id: 5 000c50 07d3083c7
Firmware Version: SC48
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Mon Jan 25 08:53:36 2021 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (  584) seconds.
Offline data collection
capabilities: (0x73) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 232) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x3081) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   113   100   006    Pre-fail  Always       -       54720264
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       67
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       30065584744
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       136
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       53
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   001   000    Old_age   Always       -       7 7 65535
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   054   045   045    Old_age   Always   In_the_past 46 (Min/Max 21/53)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       765
194 Temperature_Celsius     0x0022   046   055   000    Old_age   Always       -       46 (0 20 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       56h+06m+40.808s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       846975072
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       4758693957

SMART Error Log Version: 1
ATA Error Count: 2
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 2 occurred at disk power-on lifetime: 63 hours (2 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff 4f 00      00:00:12.218  READ DMA EXT
  25 00 08 c0 05 60 40 00      00:00:12.217  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:12.210  READ DMA EXT
  25 00 28 ff ff ff 4f 00      00:00:12.149  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:11.675  READ DMA EXT

Error 1 occurred at disk power-on lifetime: 63 hours (2 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff 4f 00      00:00:12.218  READ DMA EXT
  25 00 08 c0 05 60 40 00      00:00:12.217  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:12.210  READ DMA EXT
  25 00 28 ff ff ff 4f 00      00:00:12.149  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:11.675  READ DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%       132         -
# 2  Short offline       Completed without error       00%       126         -
# 3  Extended offline    Aborted by host               90%       126         -
# 4  Short offline       Completed without error       00%       126         -
# 5  Short offline       Aborted by host               70%       126         -
# 6  Short offline       Completed without error       00%       126         -
# 7  Short offline       Completed without error       00%       126         -
# 8  Short offline       Completed without error       00%       106         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Viete mi prosim povedat ci je disk OK alebo co je vlastne nejaky ukazovatel kondicii disku?

Re:Chyba disku vs. chyba souborového systému
« Odpověď #4 kdy: 25. 01. 2021, 14:09:50 »
54720264x ti hodil RAW error, 7x Command timeout a 6x Power-off-retract a má naběháno jen 136 hodin.

Tohle nevypadá na nějaký fyzický problém s hlavami/plotnami, ale že je nějak vadná řídící jednotka HDD..

Sečteno, podtrženo, vypadá to jako relativně novej disk, běž ho reklamovat.


Re:Chyba disku vs. chyba souborového systému
« Odpověď #5 kdy: 25. 01. 2021, 14:19:59 »
raw error myslím celkem nic neznamená, power off retract bude ztráta napájení, to bych u externího disku pokládal za normální

takže je otázka, jestli to vyreklamují

test dopadlo dobře, ralocated a pendig jsou 0

Re:Chyba disku vs. chyba souborového systému
« Odpověď #6 kdy: 25. 01. 2021, 14:23:06 »
No, raw error znamená přesně to, co čteš.. error. :-)

Pokud tyto informace při reklamaci spojíš s informací, která je v prvním příspěvku:"v Linuxe som si vsimol Input/output error", vyreklamovat by to měli, protože jde o vadné zboží.

Když si koupím HDD a on mi už po 136 hodinách běhu, nahlásí několik desítek milionů "raw errorů" a odpojuje se mi od compu, je prostě vadnej, tečka.

ByCzech

  • *****
  • 1 848
    • Zobrazit profil
    • E-mail
Re:Chyba disku vs. chyba souborového systému
« Odpověď #7 kdy: 25. 01. 2021, 16:04:42 »
No, raw error znamená přesně to, co čteš.. error. :-)

Pokud tyto informace při reklamaci spojíš s informací, která je v prvním příspěvku:"v Linuxe som si vsimol Input/output error", vyreklamovat by to měli, protože jde o vadné zboží.

Když si koupím HDD a on mi už po 136 hodinách běhu, nahlásí několik desítek milionů "raw errorů" a odpojuje se mi od compu, je prostě vadnej, tečka.

To si zkuste nejdříve zjistit co to číslo znamená. U Seagate je "normální" věc, že tohle číslo u raw_read_error_rate neustále roste. Dle dostupných informací vypadá, že Seagate si v horních 16 bitech tohoto čísla schraňuje error rate a v dolních 32 bitech actual read count. Takže chybovost u tohoto konkrétního čísla u disku od uživatele wakatana je ve skutečnosti 0, protože nejvyšších 16 bitů čísla je nastaveno na 0.

Re:Chyba disku vs. chyba souborového systému
« Odpověď #8 kdy: 25. 01. 2021, 16:45:00 »
Dle jakých dostupných informací?
Oficiálně to seagate nikde uvedené nemá, dohledávám jen samé "jedna-bába-povídala", ale rád se nechám poučit.

To nejpodstatenější ale je, že to není jediný ERROR(viz command_timeout) a ten disk, se mu ODPOJIL.

Disk co se sám od sebe odpojí, je jednoduše vadný.. A to může být smart čistej jako lilie. :-)


Re:Chyba disku vs. chyba souborového systému
« Odpověď #9 kdy: 25. 01. 2021, 17:15:53 »
No, raw error znamená přesně to, co čteš.. error. :-)

Pokud tyto informace při reklamaci spojíš s informací, která je v prvním příspěvku:"v Linuxe som si vsimol Input/output error", vyreklamovat by to měli, protože jde o vadné zboží.

No mám shodu okolností stejný disk Seagate Barracuda 7200.14, který je bez problémů a ukazuje:

Kód: [Vybrat]
  1 Raw_Read_Error_Rate     0x000f   112   099   006    Pre-fail  Always       -       46018416
  3 Spin_Up_Time            0x0003   095   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       287
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       107219384
  9 Power_On_Hours          0x0032   087   087   000    Old_age   Always       -       11730
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       217
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       0 0 1
189 High_Fly_Writes         0x003a   091   091   000    Old_age   Always       -       9
190 Airflow_Temperature_Cel 0x0022   070   055   045    Old_age   Always       -       30 (Min/Max 28/33)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       74
193 Load_Cycle_Count        0x0032   065   065   000    Old_age   Always       -       71142
194 Temperature_Celsius     0x0022   030   045   000    Old_age   Always       -       30 (0 15 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       7258h+46m+45.644s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       64563215928
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       127692739645

I/O error tam nemá, jen to co odkazuje na nekonzistentní NTFS:

Kód: [Vybrat]
ntfs: (device loop0): ntfs_read_locked_inode(): Failed with error code -5.  Marking corrupt inode 0x1c52 as bad.  Run chkdsk.

bmn

  • ***
  • 145
    • Zobrazit profil
    • E-mail
Re:Chyba disku vs. chyba souborového systému
« Odpověď #10 kdy: 26. 01. 2021, 05:36:37 »
Celé mi to připadá jako nedostatečné napájení (měkký zdroj). Takto podobně se to chovává. U plotnových disků (u SSD nevím). Občas celkový výpadek, občas nedetekovaná chyba při zápisu - pak už jen záleží, co se zrovna zapisovalo. Občas (méně) při čtení. Časem, za hodně špatných podmínek, odeslání celého disku do věčných lovišť.

Re:Chyba disku vs. chyba souborového systému
« Odpověď #11 kdy: 26. 01. 2021, 09:17:46 »
Přidám své názory k již prezentovaným = budu souhlasit s některými výroky, které tu padly.

"Raw read error rate" je vždycky hausnumero a obvykle ho zcela ignorujeme. Jo a děkuju @ByCzech za vysvětlivku :-) Zkusím to občas použít.

Pokud SMART obsahuje nenulové hodnoty "reallocated sector count", je vhodné zpozornět.

Nenulové hodnoty "offline uncorrectable" znamenají vadu, takovému disku už nevěřit.

Pokud je SMART zcela čistý, tak to ještě není stoprocentní záruka, že je disk jako celek zdravý, může mít nějaký vakl v elektronice, který se ve SMARTu neprojeví, nebo jsem zažil disky, které bez problému četly, ale při zápisu okamžitý zátuh (každopádně už disk nebyl schopen si zapsat chybu do SMART sektoru) apod.

Ctěnému publiku dále velmi doporučuji error log, kterým končí výpis "smartctl -a". Je tam vidět celkový počet chyb, a posledních pět je rozepsaných hezky podrobně. Tento log bývá obecně velmi užitečný.

No a v našem případě, konkrétně hláška UNC... tipnu si, že obecně znamená "uncorrected", tzn. nedalo se přečíst z plotny. Ale zde bych upřesnil: všimněte si LBA adresy 0x0FFFFFFF . Toto je velmi charakteristické kulaté číslo. Dle ATA standardů je tato adresa již neplatná v ATA LBA28 (viz inline funkce lba_28_ok() ), je třeba se na ni dotázat přes ATA LBA48. Toto vypadá na bug v kernelu - žil jsem v domnění, že byl odstraněn někdy relativně brzo v řadě 2.6. Budu se opakovat, "starej ale dobrej" - fakt bych nečekal, že ho ještě dneska potkám, po tolika letech. Pokud se k disku přistupuje skrz USB Mass Storage, tak nemohu vyloučit, že za tu chybu může firmware USB/SATA převodníku (který generuje ATA LBA28 transakce). Pokud je do toho nějakým způsobem zapletena translace SAT tak si nejsem jistý, kde přesně hledat - jestli v USB/SATA převodníku, nebo v kernelu...

Je jistě otázkou, zda za narušené NTFS může konkrétně "mina na LBA adrese 0x0FFFFFFF" (desítkově 268435455).

Hypotéza o špatném zdroji - obecně jistě stojí za prověření. Chce to ale vědět poměrně dost podrobností: jak silný zdroj, jak starý, nejlíp se mu podívat na zoubek skopem... pokud není skop, ale chyby se projevují reprodukovatelně, tak třeba aspoň zkusit spekulativně vyměnit zdroj za nějaký "nezpochybnitelně kvalitní", zda závada zmizí. A možná lze řešit kondíky apod. Zdroje jsou samostatná kapitola. Radši to nechám na jindy :-)

BTW, chcete-li prověřit, zda Váš linux o tu adresu 0x0FFFFFFF zakopne, zkuste třeba něco jako
dd if=/dev/sda of=/dev/null bs=512 count=10 skip=268435450

Nebo zkuste můj hddtest (před pár týdny jsem konečně opravil dávný bug se staticky alokovaným bufferem o pevné velikosti, který způsoboval pády při příliš širokém okně terminálu).

Re:Chyba disku vs. chyba souborového systému
« Odpověď #12 kdy: 27. 01. 2021, 01:12:55 »
Dakujem velmi pekne za cenne rady. Bohuzial reklamovat nemozem lebo disk bol sice pouzivany malo ale bol kupeny cca pred 4-5 rokmi. Spustil som na disku pre istotu aj badblocks, a zatial to vyzea na 0 chyb:

Kód: [Vybrat]
root@ryzen:~# badblocks -nsv /dev/sde
Checking for bad blocks in non-destructive read-write mode
From block 0 to 1953514582
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern:  47.47% done, 36:17:06 elapsed. (0/0/0 errors))

paralelne mi bezi badblocks aj na internom 4TB disku, tam vsak bezi destructive test. Ten ako vidite uz cca rovnaky cas takmer 2x prepisal a precital cely disk (0xaa, 0x55, 0xff, 0x00) a teda je teda cca 4x rychlejsi ako spominany externy disk. Neviem ci je normalne ze je externy disk tak pomaly, alebo je to inym typom testu? Ale napadlo mi ci aj toto nemoze byt jeden zo znakov chybovosti, tak to tu pre istotu uvadzam.

Kód: [Vybrat]
root@ryzen:~# badblocks -svw /dev/sda
Checking for bad blocks in read-write mode
From block 0 to 3907018583
Testing with pattern 0xaa: done
Reading and comparing: done
Testing with pattern 0x55: done
Reading and comparing:  96.09% done, 31:03:49 elapsed. (0/0/0 errors)

1. Ako pozerate vysledok smartcl (padlo tu uz par tipov na niektore parametre)? Mate nejake klikatko co svieti na cerveno v prislusnych miestach alebo ako sa v tom orientujete? Toto este vyzera zaujimave https://www.smartmontools.org/wiki/FAQ priznam sa ze som to zatial len preletel.

2. Aky je vlastne rozdiel medzi short a long SMART, sedliacky rozum co to napoveda ale ako to naozaj je?

3. Mate nejaky osvedceny sposob na testovanie diskov? Pouzivate napr zmieneny badblocks? Podla tohoto prispevku https://forum.root.cz/index.php?topic=4096.msg34494#msg34494 vraj badblocks sam o sebe vraj nema velky vyznam.
Tu som sa zas dozvedel https://www.root.cz/clanky/budte-s-m-a-r-t-a-hlidejte-si-disky/nazory/462572/ ze niekto to robi tak ze pusti smart pred badblocks a nasledne smart potom. Aky mate na to nazor?

4. Ma zmysel pustat nad imageom nejake opravy NTFSka (win: chkntfs chkdsk lin: ntfsfix) alebo nieco podobne? Nakolko image sa javi ze funguje az na jeden subor (vid find priklad + taktiez skusanych par suborov nahodne)?

5. Zo spomninanych moznosti (aj inde na fore sa spomina) ze najcastejcie chyby su:
vadný disk
vadný zdroj disku
vadný usb kabel
vadný usb hub

Mam este jeden disk ktory ma rovnky adapter a dokonca aj USB kabel ako spominany externy USB disk. Dokazem teda vymenit oba. Co si tym ale pomozem? Viem nasledne pustit nejaky dalsi test ktory mi potvrdi ze disk je OK? PS: asi to nakoniec skonci tak ze ho vykucham a zapojim cez SATA priamo na maticnu dosku len momentalne bohuzial nemam kde.

Re:Chyba disku vs. chyba souborového systému
« Odpověď #13 kdy: 27. 01. 2021, 09:16:42 »
pred 4-5 rokmi. Spustil som na disku pre istotu aj badblocks, a zatial to vyzea na 0 chyb:

Kód: [Vybrat]
root@ryzen:~# badblocks -nsv /dev/sde
Checking for bad blocks in non-destructive read-write mode
From block 0 to 1953514582
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern:  47.47% done, 36:17:06 elapsed. (0/0/0 errors))


Dnes rano bola konzola kde bezal badblocks plna podobneho textu (vsetko sa to ani nevoslo na obrazovku mimochodom som dal kopirovat celly buffer GNU screen a asi to nebol dobry napad)

Kód: [Vybrat]
...
1953505133
1953505134
1953505135
1953505136
1953505137
1953505138ne, 41:55:44 elapsed. (907728305/0/0 errors)
1953505139
1953505140
1953505141
1953505142
1953505143
1953505144
1953505145
1953505146
...

a v dmesg bolo zasa plno tohoto (max kolko sa mi voslo https://pastebin.com/cTnSKhsT)

Kód: [Vybrat]
[153480.139575] Buffer I/O error on dev sde, logical block 3206647748, async page read
[153480.139684] Buffer I/O error on dev sde, logical block 3206647749, async page read
[153480.139790] Buffer I/O error on dev sde, logical block 3206647750, async page read
[153480.139895] Buffer I/O error on dev sde, logical block 3206647751, async page read
[153480.140004] Buffer I/O error on dev sde, logical block 3206647744, async page read
[153480.140117] Buffer I/O error on dev sde, logical block 3206647745, async page read
[153485.143004] buffer_io_error: 9681598 callbacks suppressed
[153485.143005] Buffer I/O error on dev sde, logical block 3209068144, async page read
[153485.143136] Buffer I/O error on dev sde, logical block 3209068145, async page read
[153485.143256] Buffer I/O error on dev sde, logical block 3209068146, async page read
[153485.143374] Buffer I/O error on dev sde, logical block 3209068147, async page read
[153485.143501] Buffer I/O error on dev sde, logical block 3209068148, async page read
[153485.143609] Buffer I/O error on dev sde, logical block 3209068149, async page read
[153485.143716] Buffer I/O error on dev sde, logical block 3209068150, async page read
« Poslední změna: 27. 01. 2021, 09:25:08 od wakatana »

Re:Chyba disku vs. chyba souborového systému
« Odpověď #14 kdy: 27. 01. 2021, 10:44:38 »
Znovu: ve SMART logu vidím (pouhé) dva výskyty charakteristické chyby, že někdo zkusil přečíst sektor 0x0FFFFFFF pomocí LBA28. Netvrdím, že tuto chybu zreprodukujete v tom Linuxu, pod kterým aktuálně testujete - třeba proto, že ten Linux se s diskem baví nikoli přes USB mass storage, ale skrz "tunel" zvaný SAT, takže možná lžičkuje čísla sektorů správně. Nebyl by kompletní výpis dmesg, kde je vidět nalezení a inicializace /dev/sde + jeho odpovídajícího HBA?

Bohužel neznám badblocks. Zaujalo mě, že nahlásil 1 953 514 582 "bloků", ale v dmesg vidím chybu při čtení LBA sektoru č. 3 209 068 147, a pohledem do Vašich výpisů smartctl vidím 2TB disk = to znamená, že dmesg mluví o low-level LBA sektorech o tradiční velikosti 512B, které potkáte ve většině low-level toolů jako jsou různé odrůdy fdisku, kdežto badblocks mluví o "blocích" velikosti 1 kB, ve kterých se vyjadřuje třeba df nebo du (což jsou ale spíš nástroje nad filesystémem). Doufám, že si to vysvětluju správně.

Zlatý starý IDE/ATA subsystém v Linuxu, který vypisoval do dmesg podrobné hlášky včetně ATA commandu, který selhal, a kódu chyby tuším z jakéhosi stavového registru IDE/ATA. Bohužel toto je minulost.

Znovu doporučuji, zkuste si stáhnout a zkompilovat hddtest - možná Vám dá přehlednější průběžnou informaci než badblocks. Například průběžně ukazuje rychlost přenosu.

Jinak docela dobrý tool na zobrazení okamžité rychlosti v MBps a IOps je iostat z balíku "sysstat". Doporučuji spouštět tak, aby data vypisoval periodicky - např. "iostat 2". IOstat je jenom ukazatel, nikoli generátor zátěže = spusťte si ho na samostatné konzole, zároveň se zátěží, kterou generuje třeba badblocks (nebo cokoli jiného, oběcně živý systém).

Ano, externí disky v USB rámečku jsou líné. USB 2.0 reálně představuje úzké hrdlo třeba 40-50 MBps sekvenčně. Vaše 3.5" 2TB Barracuda by měla dávat řádově něco kolem 200 MBps, jestli mi šedá kůra správně slouží (pokud ne 300 MBps - už vážně nevím). Dlouhá léta dávaly disky něco kolem 100 MBps. Pokud byste měl rámeček s USB 3.0, tak patrně nezjistíte rozdíl mezi externím rámečkem a onboard SATA.

Mimochodem, má ten Váš rámeček nějaký ventilátor? Pokud ženete 3.5" disk této kategorie několik hodin v kuse bez chlazení, tak se nedivím, že se mu třeba neudělá dobře. Pravda je, že ve Vašem výpisu SMART vidím okamžitou teplotu 48*C, maximum 55. Běžně disky při těchto teplotách neprovozuji, takže Vám neporadím, zda je to OK nebo už na pováženou. Ptám se proto, že vím, že prakticky žádný externí rámeček nemá ventilátor. Na svůj soukromý rámeček jsem si ventilátor sám přidělal, takže můj externí disk má za provozu něco kolem 30*C.

Protože externí USB rámečky neprodávám a neservisuju, tak Vám bohužel neposloužím statistikou, která chyba je "statisticky nejčastější". Mohu ale velmi doporučit systematický postup = problém "izolovat" metodickými záměnami A/B jednotlivých součástek, na které ten krám lze dekomponovat. Pokud je to vada kusu, tak se Vám bude stěhovat.

A chválím nápad, vyndat disk z rámečku a zkusit ho otestovat taky na přímém propoji SATA rovnou do motherboardu, napájený PS/2 ATX zdrojem. Natočte pár průchodů hddtestem. Pokud se nevyskytne chyba, (zatímco v externím USB kastlíku ano,) tak už budete vědět, že diskem to není.

On je obecně dobrý nápad, na začátku postupu hledání problému řetězec "maximálně zkrátit" = zkusit problém reprodukovat v minimalistické konfiguraci. A pokud se neprojeví, tak postupovat "signálovým řetězcem" plné konfigurace buď sekvenčně, nebo půlením intervalu, nebo jak se Vám zrovna chce (třeba podle pracnosti záměn A/B na různých rozhraních).

Jinak pokud hddtest a podobné tooly v režimu "pouze čtení" jedou bezchybně, tak to ještě neznamená, že disk je zdravý. Viděl jsem disky, které běžely týden bez chyby s čistým čtením, ale při zápisovém testu (= přepíše data na disku) padl disk na ústa téměř okamžitě :-/

Kromě toho je v hddtestu nebo iostatu hezky vidět, jak kolísá okamžitá sekvenční rychlost - a pokud sekvenční čtení nejede jak podle pravítka, je to taky indikace, že má disk problém, přestože se k němu třeba ve SMARTu zatím moc nepřiznal. Obvykle se později v testu začnou sypat vadné sektory.

Heh taky jsem viděl disky (WD Raptor/Velociraptor?) které při čtení už zadrhávaly nebo timeoutovaly, tak jsem zkusil zápisový test (přepsat celou plochu nulami) což proběhlo, a po tomto zápisovém testu se disk začal chovat zcela zdravě i při čtení :-) ale vydrželo mu to třeba dva týdny a pak se začal zase sypat i při čtení...