Chyba disku vs. chyba souborového systému

Chyba disku vs. chyba souborového systému
« kdy: 24. 01. 2021, 15:52:15 »
Ahojte,
v minulosti som mal nejake probelmy s externym diskom na ktorom som mal NTFS a bol pouzivany na Windowse a Linuxe. Ak si dobre spominam tak v Linuxe som si vsimol Input/output error a vo Windowse (bolo to davnejsie tak detaily z nepamatam) sa jednalo o nieco take ze checksum suboru nesedel po tom co bol nakopirovany na tento disk. Na tomto disku su prevazne multimedia. Tento disk som teda odlozil bokom a vcera som zacal jeho zachranu a to nasledovne:

Na novom disku som vytvoril miesto pre ddrescue image
Kód: [Vybrat]
root@ryzen:~# zpool create datastore /dev/sdc

Naklonoval som si teda tento disk cez ddrescue a vyzera ze to zbehlo bez najmensich problemov (PC bol sice vypnuty aleto je iny pribeh https://forum.root.cz/index.php?topic=24195.msg343752):
Kód: [Vybrat]
root@ryzen:/datastore# ddrescue -v -d -n /dev/sdd1 img.img img.log

root@ryzen:/datastore# ddrescue -v -d -r 3 /dev/sdd1 img.img img.log
GNU ddrescue 1.23
About to copy 2000 GBytes from '/dev/sdd1' to 'img.img'
    Starting positions: infile = 0 B,  outfile = 0 B
    Copy block size: 128 sectors       Initial skip size: 39168 sectors
Sector size: 512 Bytes

Press Ctrl-C to interrupt
Initial status (read from mapfile)
rescued: 2000 GB, tried: 0 B, bad-sector: 0 B, bad areas: 0

Current status
     ipos:        0 B, non-trimmed:        0 B,  current rate:       0 B/s
     opos:        0 B, non-scraped:        0 B,  average rate:       0 B/s
non-tried:        0 B,  bad-sector:        0 B,    error rate:       0 B/s
  rescued:    2000 GB,   bad areas:        0,        run time:          0s
pct rescued:  100.00%, read errors:        0,  remaining time:         n/a
                              time since last successful read:         n/a
Finished

root@ryzen:/datastore# cat img.log
# Mapfile. Created by GNU ddrescue version 1.23
# Command line: ddrescue -v -d -r 3 /dev/sdd1 img.img img.log
# Start time:   2021-01-24 11:03:07
# Current time: 2021-01-24 11:03:07
# Finished
# current_pos  current_status  current_pass
0x1D1C0E90000     +               1
#      pos        size  status
0x00000000  0x1D1C0E98200  +


Nasledne som ddrescue image mountol ako read only a tiez vsetko vyzera byt OK
Kód: [Vybrat]
root@ryzen:/datastore# mount -o ro /datastore/img.img /mnt/SAMSUNG_2TB

root@ryzen:/datastore# df -hT
Filesystem           Type      Size  Used Avail Use% Mounted on
udev                 devtmpfs   16G     0   16G   0% /dev
tmpfs                tmpfs     3.2G  9.2M  3.2G   1% /run
/dev/mapper/pve-root ext4       57G  2.1G   52G   4% /
tmpfs                tmpfs      16G   25M   16G   1% /dev/shm
tmpfs                tmpfs     5.0M     0  5.0M   0% /run/lock
tmpfs                tmpfs      16G     0   16G   0% /sys/fs/cgroup
/dev/sdb2            vfat      511M  312K  511M   1% /boot/efi
datastore            zfs       3.6T  1.9T  1.7T  52% /datastore
/dev/fuse            fuse       30M   16K   30M   1% /etc/pve
tmpfs                tmpfs     3.2G     0  3.2G   0% /run/user/0
/dev/loop0           ntfs      1.9T  1.1T  771G  59% /mnt/SAMSUNG_2TB


Vsimol som si vsak ze v jednom pripade je problem s pristupom ku suboru
Kód: [Vybrat]
root@ryzen:/mnt/SAMSUNG_2TB# du -sh * | sort -h
du: cannot access 'EDU_VIDEOS/coursera/Coursera - Stanford University - Jeff Ulman - Automata/02 - Week 2 Regular Expression and Properties of Regular Languages/03 - 7. Decision algorithms for regular languages (41 min.)/7_rs1.pdf': Input/output error


Vylistoval som si teda vsetky subory na mountnutom disku a aplikoval na ne ls aby som videl ci je este niekde problem s citanim a toto je vysledok:
Kód: [Vybrat]
root@ryzen:/datastore# find /mnt/SAMSUNG_2TB -exec ls -la {} \; > list_of_files.txt 2>&1

root@ryzen:/datastore# grep 'Input\/output error' list_of_files.txt
ls: cannot access '/mnt/SAMSUNG_2TB/EDU_VIDEOS/coursera/Coursera - Stanford University - Jeff Ulman - Automata/02 - Week 2 Regular Expression and Properties of Regular Languages/03 - 7. Decision algorithms for regular languages (41 min.)/7_rs1.pdf': Input/output error
ls: cannot access '/mnt/SAMSUNG_2TB/EDU_VIDEOS/coursera/Coursera - Stanford University - Jeff Ulman - Automata/02 - Week 2 Regular Expression and Properties of Regular Languages/03 - 7. Decision algorithms for regular languages (41 min.)/7_rs1.pdf': Input/output error

root@ryzen:/datastore# grep '\?' list_of_files.txt
-????????? ? ?    ?           ?            ? 7_rs1.pdf

Vyzera to teda ze az na tento jeden subor je cely FS vporiadku.

Pripajam aj vypisy z logov

Kód: [Vybrat]
root@ryzen:/datastore# dmesg | egrep 'sd[a-d]|ntfs'
[    1.694636] sd 3:0:0:0: [sda] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
[    1.694637] sd 3:0:0:0: [sda] 4096-byte physical blocks
[    1.694642] sd 3:0:0:0: [sda] Write Protect is off
[    1.694643] sd 3:0:0:0: [sda] Mode Sense: 00 3a 00 00
[    1.694650] sd 3:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    1.709774] sd 4:0:0:0: [sdb] 488397168 512-byte logical blocks: (250 GB/233 GiB)
[    1.709781] sd 4:0:0:0: [sdb] Write Protect is off
[    1.709782] sd 4:0:0:0: [sdb] Mode Sense: 00 3a 00 00
[    1.709792] sd 4:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    1.715693] sd 8:0:0:0: [sdc] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
[    1.715694] sd 8:0:0:0: [sdc] 4096-byte physical blocks
[    1.715697] sd 8:0:0:0: [sdc] Write Protect is off
[    1.715699] sd 8:0:0:0: [sdc] Mode Sense: 00 3a 00 00
[    1.715704] sd 8:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    1.726181]  sdb: sdb1 sdb2 sdb3
[    1.727350] sd 4:0:0:0: [sdb] supports TCG Opal
[    1.727351] sd 4:0:0:0: [sdb] Attached SCSI removable disk
[    1.735545] sd 3:0:0:0: [sda] Attached SCSI removable disk
[    1.811147]  sdc: sdc1 sdc9
[    1.811374] sd 8:0:0:0: [sdc] Attached SCSI removable disk
[    2.598413] sd 10:0:0:0: [sdd] 3907029167 512-byte logical blocks: (2.00 TB/1.82 TiB)
[    2.598904] sd 10:0:0:0: [sdd] Write Protect is off
[    2.598905] sd 10:0:0:0: [sdd] Mode Sense: 2b 00 10 08
[    2.599394] sd 10:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
[    3.030878]  sdd: sdd1
[    3.032673] sd 10:0:0:0: [sdd] Attached SCSI disk
[ 1041.102751] ntfs: driver 2.1.32 [Flags: R/O MODULE].
[ 1041.105653] ntfs: volume version 3.1.
[ 1268.754273] __ntfs_error: 6 callbacks suppressed
[ 1268.754274] ntfs: (device loop0): map_mft_record_page(): Mft record 0x1c52 is corrupt.  Run chkdsk.
[ 1268.754287] ntfs: (device loop0): map_mft_record(): Failed with error code 5.
[ 1268.754292] ntfs: (device loop0): ntfs_read_locked_inode(): Failed with error code -5.  Marking corrupt inode 0x1c52 as bad.  Run chkdsk.

root@ryzen:/datastore# grep 'sd[a-d]' /var/log/messages
Jan 24 02:09:38 ryzen kernel: [ 3173.161789]  sdc: sdc1 sdc9
Jan 24 02:44:10 ryzen kernel: [ 5245.471556] sd 10:0:0:0: [sdd] Spinning up disk...
Jan 24 02:44:18 ryzen kernel: [ 5253.021523] sd 10:0:0:0: [sdd] 3907029167 512-byte logical blocks: (2.00 TB/1.82 TiB)
Jan 24 02:44:18 ryzen kernel: [ 5253.022028] sd 10:0:0:0: [sdd] Write Protect is off
Jan 24 02:44:18 ryzen kernel: [ 5253.022520] sd 10:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
Jan 24 02:44:18 ryzen kernel: [ 5253.050368]  sdd: sdd1
Jan 24 02:44:18 ryzen kernel: [ 5253.051833] sd 10:0:0:0: [sdd] Attached SCSI disk
Jan 24 10:48:37 ryzen kernel: [    1.694636] sd 3:0:0:0: [sda] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
Jan 24 10:48:37 ryzen kernel: [    1.694637] sd 3:0:0:0: [sda] 4096-byte physical blocks
Jan 24 10:48:37 ryzen kernel: [    1.694642] sd 3:0:0:0: [sda] Write Protect is off
Jan 24 10:48:37 ryzen kernel: [    1.694650] sd 3:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jan 24 10:48:37 ryzen kernel: [    1.709774] sd 4:0:0:0: [sdb] 488397168 512-byte logical blocks: (250 GB/233 GiB)
Jan 24 10:48:37 ryzen kernel: [    1.709781] sd 4:0:0:0: [sdb] Write Protect is off
Jan 24 10:48:37 ryzen kernel: [    1.709792] sd 4:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jan 24 10:48:37 ryzen kernel: [    1.715693] sd 8:0:0:0: [sdc] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
Jan 24 10:48:37 ryzen kernel: [    1.715694] sd 8:0:0:0: [sdc] 4096-byte physical blocks
Jan 24 10:48:37 ryzen kernel: [    1.715697] sd 8:0:0:0: [sdc] Write Protect is off
Jan 24 10:48:37 ryzen kernel: [    1.715704] sd 8:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jan 24 10:48:37 ryzen kernel: [    1.726181]  sdb: sdb1 sdb2 sdb3
Jan 24 10:48:37 ryzen kernel: [    1.727350] sd 4:0:0:0: [sdb] supports TCG Opal
Jan 24 10:48:37 ryzen kernel: [    1.727351] sd 4:0:0:0: [sdb] Attached SCSI removable disk
Jan 24 10:48:37 ryzen kernel: [    1.735545] sd 3:0:0:0: [sda] Attached SCSI removable disk
Jan 24 10:48:37 ryzen kernel: [    1.811147]  sdc: sdc1 sdc9
Jan 24 10:48:37 ryzen kernel: [    1.811374] sd 8:0:0:0: [sdc] Attached SCSI removable disk
Jan 24 10:48:37 ryzen kernel: [    2.598413] sd 10:0:0:0: [sdd] 3907029167 512-byte logical blocks: (2.00 TB/1.82 TiB)
Jan 24 10:48:37 ryzen kernel: [    2.598904] sd 10:0:0:0: [sdd] Write Protect is off
Jan 24 10:48:37 ryzen kernel: [    2.599394] sd 10:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
Jan 24 10:48:37 ryzen kernel: [    3.030878]  sdd: sdd1
Jan 24 10:48:37 ryzen kernel: [    3.032673] sd 10:0:0:0: [sdd] Attached SCSI disk

Co z tohoto mozem usidit?
1. Je Disk je OK (nakolko ho ddrescue naklonoval) a poskodeny je len subor 7_rs1.pdf resp samotny FS?
2. Co este mozem skusit aby som sa uistil ze disk/FS je OK?
3. Tym ze je image ulozeny na ZFS mozem si spravit nejaku zalohu cez snapshot pred tym nez skusim nejake tooly na opravovanie imageu? ddrescue image ma cca 1.9T, disk ma 4T (realne cca 3.6T) a zostava mi cca 1.7T volneho miesta, takze klasicku kopiu cez cp nespravim lebo nemam miesto.
4. V akom stave su nastroje na pracu s NTFS pod linuxom, je lepsie subor opravit vo Windowse alebo Linuxe? Tu https://unix.stackexchange.com/questions/39905/input-output-error-when-accessing-a-directory sa spomina ntfs vs ntfs-3g ale je to niekolko rokov stary clanok.
5. Bolo by mozne tento image dostat do Windowsu a opravit ho tam? Ak ano ako? Rozmyslam nieco na styl ze: spravit virtualku s Windowsom a do nej nejako "mountnut" tento image ako disk nad ktorym uz mozem pustat windows utility. Je nieco take mozne?
6. Ma vobec zmysel opravovat tento image ked vyzera ze vsetko az na jeden subor je OK?
7. Co mohlo sposobit chyby ktore opisujem v uvode?

Dakujem
« Poslední změna: 24. 01. 2021, 18:39:46 od Petr Krčmář »


Re:chyba disku vs chyba file systemu
« Odpověď #1 kdy: 24. 01. 2021, 16:26:46 »
Chyba je v NTFS, disk se zdá OK. Ještě by to chtělo se podívat na SMART a  případně udělat SMART long test.

NTFS opravit jedině v nějakém Windows 10 fsck -f d:, v Linuxu ty nástroje pro NTFS nefungují dobře

Re:chyba disku vs chyba file systemu
« Odpověď #2 kdy: 24. 01. 2021, 23:09:27 »
Chyba je v NTFS, disk se zdá OK. Ještě by to chtělo se podívat na SMART a  případně udělat SMART long test.

NTFS opravit jedině v nějakém Windows 10 fsck -f d:, v Linuxu ty nástroje pro NTFS nefungují dobře

Vdaka za odpoved, spominany disk je externy USB disk takze trosku som sa potrapil kym som spustil test. Napisem to tu mozno sa to niekomu hodi. Skusal som teda nasledovne prikazy.

Kód: [Vybrat]
root@ryzen:/datastore# smartctl -a /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

/dev/sdd: Unknown USB bridge [0x04e8:0x6123 (0x202)]
Please specify device type with the -d option.

Use smartctl -h to get a usage summary

Kód: [Vybrat]
root@ryzen:/datastore# smartctl -a -d scsi /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               Samsung
Product:              D3 Station
Revision:             0202
Compliance:           SPC-4
User Capacity:        2,000,398,933,504 bytes [2.00 TB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=12 offset=12 bd_len=8
scsiModePageOffset: response length too short, resp_len=12 offset=12 bd_len=8
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.


Po nejakom case som natrafil na toto https://www.smartmontools.org/wiki/Supported_USB-Devices
 kde sa vyuziva prevazne parameter -d sat tak som ho teda skusil a vyzera ze snim to ide. Avsak je to pre mna spanielska dedina, kopec parametrov a neviem ktory pozerat?

Kód: [Vybrat]
root@ryzen:/datastore# smartctl -a -d sat /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST2000DM001-1E6164
Serial Number:    W1E903F0
LU WWN Device Id: 5 000c50 07d3083c7
Firmware Version: SC48
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Jan 24 22:56:24 2021 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (  584) seconds.
Offline data collection
capabilities: (0x73) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 232) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x3081) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   112   100   006    Pre-fail  Always       -       46561336
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       67
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       30065554952
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       126
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       53
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   001   000    Old_age   Always       -       7 7 65535
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   052   045   045    Old_age   Always   In_the_past 48 (Min/Max 21/51)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       765
194 Temperature_Celsius     0x0022   048   055   000    Old_age   Always       -       48 (0 20 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       46h+09m+29.567s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       846975072
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       4754652485

SMART Error Log Version: 1
ATA Error Count: 2
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 2 occurred at disk power-on lifetime: 63 hours (2 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff 4f 00      00:00:12.218  READ DMA EXT
  25 00 08 c0 05 60 40 00      00:00:12.217  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:12.210  READ DMA EXT
  25 00 28 ff ff ff 4f 00      00:00:12.149  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:11.675  READ DMA EXT

Error 1 occurred at disk power-on lifetime: 63 hours (2 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff 4f 00      00:00:12.218  READ DMA EXT
  25 00 08 c0 05 60 40 00      00:00:12.217  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:12.210  READ DMA EXT
  25 00 28 ff ff ff 4f 00      00:00:12.149  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:11.675  READ DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       126         -
# 2  Short offline       Aborted by host               70%       126         -
# 3  Short offline       Completed without error       00%       126         -
# 4  Short offline       Completed without error       00%       126         -
# 5  Short offline       Completed without error       00%       106         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Este som nasiel tento report tak neviem ci to povie nieco vac
Kód: [Vybrat]
root@ryzen:~# smartctl -H -d sat /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Please note the following marginal Attributes:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
190 Airflow_Temperature_Cel 0x0022   052   045   045    Old_age   Always   In_the_past 48 (Min/Max 21/51)

Test som spustil takto
Kód: [Vybrat]
smartctl -t long -d sat /dev/sdd
progress monitorujem takto
Kód: [Vybrat]
watch 'smartctl -c -d sat /dev/sdd | grep progress -A 1'
watch 'smartctl -a -d sat /dev/sdd | grep progress'

Ako sa nasledne dostanem ku vysledkom? Ked som to skusal so short test tak v konzolach kde monitorjuem progress vidim ze test skoncil ale v kozole kde som spustal test nevidim nic.

Dakujem

Re:chyba disku vs chyba file systemu
« Odpověď #3 kdy: 25. 01. 2021, 09:00:55 »
Ako sa nasledne dostanem ku vysledkom? Ked som to skusal so short test tak v konzolach kde monitorjuem progress vidim ze test skoncil ale v kozole kde som spustal test nevidim nic.


Ok takze tu je vysledok z dlheho testu http://paste.debian.net/1182666
Kód: [Vybrat]
root@ryzen:~# smartctl -a -d sat /dev/sdd
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.34-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST2000DM001-1E6164
Serial Number:    W1E903F0
LU WWN Device Id: 5 000c50 07d3083c7
Firmware Version: SC48
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Mon Jan 25 08:53:36 2021 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (  584) seconds.
Offline data collection
capabilities: (0x73) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 232) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x3081) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   113   100   006    Pre-fail  Always       -       54720264
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       67
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       30065584744
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       136
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       53
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   001   000    Old_age   Always       -       7 7 65535
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   054   045   045    Old_age   Always   In_the_past 46 (Min/Max 21/53)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       765
194 Temperature_Celsius     0x0022   046   055   000    Old_age   Always       -       46 (0 20 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       56h+06m+40.808s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       846975072
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       4758693957

SMART Error Log Version: 1
ATA Error Count: 2
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 2 occurred at disk power-on lifetime: 63 hours (2 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff 4f 00      00:00:12.218  READ DMA EXT
  25 00 08 c0 05 60 40 00      00:00:12.217  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:12.210  READ DMA EXT
  25 00 28 ff ff ff 4f 00      00:00:12.149  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:11.675  READ DMA EXT

Error 1 occurred at disk power-on lifetime: 63 hours (2 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff 4f 00      00:00:12.218  READ DMA EXT
  25 00 08 c0 05 60 40 00      00:00:12.217  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:12.210  READ DMA EXT
  25 00 28 ff ff ff 4f 00      00:00:12.149  READ DMA EXT
  25 00 20 ff ff ff 4f 00      00:00:11.675  READ DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%       132         -
# 2  Short offline       Completed without error       00%       126         -
# 3  Extended offline    Aborted by host               90%       126         -
# 4  Short offline       Completed without error       00%       126         -
# 5  Short offline       Aborted by host               70%       126         -
# 6  Short offline       Completed without error       00%       126         -
# 7  Short offline       Completed without error       00%       126         -
# 8  Short offline       Completed without error       00%       106         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Viete mi prosim povedat ci je disk OK alebo co je vlastne nejaky ukazovatel kondicii disku?

Re:Chyba disku vs. chyba souborového systému
« Odpověď #4 kdy: 25. 01. 2021, 14:09:50 »
54720264x ti hodil RAW error, 7x Command timeout a 6x Power-off-retract a má naběháno jen 136 hodin.

Tohle nevypadá na nějaký fyzický problém s hlavami/plotnami, ale že je nějak vadná řídící jednotka HDD..

Sečteno, podtrženo, vypadá to jako relativně novej disk, běž ho reklamovat.


Re:Chyba disku vs. chyba souborového systému
« Odpověď #5 kdy: 25. 01. 2021, 14:19:59 »
raw error myslím celkem nic neznamená, power off retract bude ztráta napájení, to bych u externího disku pokládal za normální

takže je otázka, jestli to vyreklamují

test dopadlo dobře, ralocated a pendig jsou 0

Re:Chyba disku vs. chyba souborového systému
« Odpověď #6 kdy: 25. 01. 2021, 14:23:06 »
No, raw error znamená přesně to, co čteš.. error. :-)

Pokud tyto informace při reklamaci spojíš s informací, která je v prvním příspěvku:"v Linuxe som si vsimol Input/output error", vyreklamovat by to měli, protože jde o vadné zboží.

Když si koupím HDD a on mi už po 136 hodinách běhu, nahlásí několik desítek milionů "raw errorů" a odpojuje se mi od compu, je prostě vadnej, tečka.

ByCzech

  • *****
  • 1 798
    • Zobrazit profil
    • E-mail
Re:Chyba disku vs. chyba souborového systému
« Odpověď #7 kdy: 25. 01. 2021, 16:04:42 »
No, raw error znamená přesně to, co čteš.. error. :-)

Pokud tyto informace při reklamaci spojíš s informací, která je v prvním příspěvku:"v Linuxe som si vsimol Input/output error", vyreklamovat by to měli, protože jde o vadné zboží.

Když si koupím HDD a on mi už po 136 hodinách běhu, nahlásí několik desítek milionů "raw errorů" a odpojuje se mi od compu, je prostě vadnej, tečka.

To si zkuste nejdříve zjistit co to číslo znamená. U Seagate je "normální" věc, že tohle číslo u raw_read_error_rate neustále roste. Dle dostupných informací vypadá, že Seagate si v horních 16 bitech tohoto čísla schraňuje error rate a v dolních 32 bitech actual read count. Takže chybovost u tohoto konkrétního čísla u disku od uživatele wakatana je ve skutečnosti 0, protože nejvyšších 16 bitů čísla je nastaveno na 0.

Re:Chyba disku vs. chyba souborového systému
« Odpověď #8 kdy: 25. 01. 2021, 16:45:00 »
Dle jakých dostupných informací?
Oficiálně to seagate nikde uvedené nemá, dohledávám jen samé "jedna-bába-povídala", ale rád se nechám poučit.

To nejpodstatenější ale je, že to není jediný ERROR(viz command_timeout) a ten disk, se mu ODPOJIL.

Disk co se sám od sebe odpojí, je jednoduše vadný.. A to může být smart čistej jako lilie. :-)


Re:Chyba disku vs. chyba souborového systému
« Odpověď #9 kdy: 25. 01. 2021, 17:15:53 »
No, raw error znamená přesně to, co čteš.. error. :-)

Pokud tyto informace při reklamaci spojíš s informací, která je v prvním příspěvku:"v Linuxe som si vsimol Input/output error", vyreklamovat by to měli, protože jde o vadné zboží.

No mám shodu okolností stejný disk Seagate Barracuda 7200.14, který je bez problémů a ukazuje:

Kód: [Vybrat]
  1 Raw_Read_Error_Rate     0x000f   112   099   006    Pre-fail  Always       -       46018416
  3 Spin_Up_Time            0x0003   095   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       287
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       107219384
  9 Power_On_Hours          0x0032   087   087   000    Old_age   Always       -       11730
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       217
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       0 0 1
189 High_Fly_Writes         0x003a   091   091   000    Old_age   Always       -       9
190 Airflow_Temperature_Cel 0x0022   070   055   045    Old_age   Always       -       30 (Min/Max 28/33)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       74
193 Load_Cycle_Count        0x0032   065   065   000    Old_age   Always       -       71142
194 Temperature_Celsius     0x0022   030   045   000    Old_age   Always       -       30 (0 15 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       7258h+46m+45.644s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       64563215928
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       127692739645

I/O error tam nemá, jen to co odkazuje na nekonzistentní NTFS:

Kód: [Vybrat]
ntfs: (device loop0): ntfs_read_locked_inode(): Failed with error code -5.  Marking corrupt inode 0x1c52 as bad.  Run chkdsk.