Fórum Root.cz

Hlavní témata => Server => Téma založeno: maruncz 07. 10. 2024, 18:49:45

Název: Chyby na různých discích na Btrfs poli
Přispěvatel: maruncz 07. 10. 2024, 18:49:45
Zdravím

postavil jsem si NAS a vytvořil na něm pole disků z btrfs.
Disky jsou tak trochu co dům dal. Nekteré starší, některé nové, ale hlídal jsem si aby neměly špatné sektory.
Původně jsem neměl na redundanci kapacitu tak jsem měl data:single a metadata:raid1.
Pravidelně jsem pouštěl scrub abych si ověřil že data nehnijí.
Jednou mě to ale opravdu našlo chybu na nějakém souboru. Naštěstí na něm nezáleželo tak jsem ho smazal a rozšířil jsem pole abych mohl mít data:raid1 a metadata:raid1c3.
Pak ale po jednom scrubu naskákalo 5 neopravitelných chyb na dvou discích (dva úplně nové stejné WD40EFPX-68C) a při dalším scrubu ty chyby nezmizely. Z logů nebylo patrné kde to nastalo, sice jsem hledal na internetu ale na nic jsem nepřišel.
Pak jsem bohužel na problém neměl čas a NAS stejně ležel většinu doby vyplý.
Teď jsem se k tomu opět dostal. Po dalším zkoumání mě nenapadlo nic lepšího než koupit 2 nové disky(tentokrát sem si řekl že koupím seagate ST4000NE001-2MA1), abych mohl z těchto disků data odlét a zkusit je na špatné sektory nebo s nimi něco udělat.
Tak jsem ty nové disky přidal do pole pomocí device add a problémové jsem dal odstraňovat pomocí device delete.
Jenže v průběhu odstraňování to napsalo prostě I/O error a nedokončilo se (u obou disků).
Na internetu jsem našel, že existuje btrfs replace a tím jsem vyměnil, ale během tohoto procesu vyskákalo do logu celá řada chyb, kterým nerozumím, a při následném scrubu vyskákaly také (přikládám log).

Není mě jasné proč chyby skáčou na těchto discích, zrovna nové ne staré. Není to ani šuplíkem v PC protože jsem v pátek kolem 4 hodiny PC vypl a jeden z problémových disků přestěhoval do jiné pozice.
A proč teď skáčou na těch nových. Očekával bych že se po srcubu nebo replacu ty chyby opraví.

Chtěl bych proto požádat o radu, kde dělám chybu a jak z toho ven. Už mě jen napadá koupit dostatek nových disků a data pomocí rsync překopírovat na nové pole a doufat že už to nenastane.


Kód: [Vybrat]
Model: ATA ST4000NE001-2MA1 (scsi)
Disk /dev/sda: 4001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name  Flags
 1      1049kB  4001GB  4001GB  btrfs


Model: ATA WDC WD7500BPKX-8 (scsi)
Disk /dev/sdb: 750GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:

Number  Start   End    Size   Type     File system  Flags
 1      1049kB  750GB  750GB  primary  btrfs


Model: ATA ST4000NE001-2MA1 (scsi)
Disk /dev/sdc: 4001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name  Flags
 1      1049kB  4001GB  4001GB  btrfs


Model: ATA WDC WD5000AAKS-0 (scsi)
Disk /dev/sdd: 500GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number  Start   End    Size   Type     File system  Flags
 1      1049kB  500GB  500GB  primary  btrfs


Error: /dev/sde: unrecognised disk label
Model: ATA WDC WD40EFPX-68C (scsi)                                       
Disk /dev/sde: 4001GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:

Model: ATA WDC WD30EFRX-68E (scsi)
Disk /dev/sdf: 3001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name  Flags
 1      1049kB  3001GB  3001GB  btrfs        data


Model: WD_BLACK SN770 250GB (nvme)
Disk /dev/nvme0n1: 250GB
Sector size (logical/physical): 512B/512B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system     Name  Flags
 1      1049kB  1128MB  1127MB  fat32                 boot, esp
 2      1128MB  239GB   238GB   btrfs
 3      239GB   250GB   10,7GB  linux-swap(v1)        swap


Model: Realtek RTL9210B-CG (scsi)
Disk /dev/sdk: 512GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number  Start   End    Size   Type     File system  Flags
 1      1049kB  512GB  512GB  primary  btrfs


Model: ATA WDC WD10EZEX-08M (scsi)
Disk /dev/sdi: 1000GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:

Number  Start   End     Size    Type     File system  Flags
 1      1049kB  1000GB  1000GB  primary  btrfs


Model: ATA WDC WD30EFRX-68E (scsi)
Disk /dev/sdg: 3001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name  Flags
 1      1049kB  3001GB  3001GB  btrfs


Model: Patriot M.2 P300 128 (scsi)
Disk /dev/sdj: 128GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:

Number  Start   End    Size   Type     File system  Flags
 1      1049kB  128GB  128GB  primary  btrfs


Error: /dev/sdh: unrecognised disk label
Model: ATA WDC WD40EFPX-68C (scsi)                                       
Disk /dev/sdh: 4001GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:


disky sdb sdj a sdk úplně neřešte, přidal jsem je do pole ať mám větší manévrovací prostor, pak je odstraním.

Kód: [Vybrat]
Overall:
    Device size:   15.36TiB
    Device allocated:   12.79TiB
    Device unallocated:    2.57TiB
    Device missing:      0.00B
    Used:   12.77TiB
    Free (estimated):    1.29TiB (min: 886.65GiB)
    Free (statfs, df):    1.24TiB
    Data ratio:       2.00
    Metadata ratio:       3.00
    Global reserve: 512.00MiB (used: 0.00B)
    Multiple profiles:         no

Data,RAID1: Size:6.38TiB, Used:6.38TiB (99.87%)
   /dev/sdi1 614.00GiB
   /dev/sdf1    2.42TiB
   /dev/sda1    3.33TiB
   /dev/sdc1    3.33TiB
   /dev/sdg1    2.42TiB
   /dev/sdd1 151.00GiB
   /dev/sdb1 381.00GiB
   /dev/sdk1 162.00GiB

Metadata,RAID1C3: Size:8.00GiB, Used:7.41GiB (92.67%)
   /dev/sdi1    3.00GiB
   /dev/sdf1    4.00GiB
   /dev/sda1    5.00GiB
   /dev/sdc1    5.00GiB
   /dev/sdg1    3.00GiB
   /dev/sdb1    3.00GiB
   /dev/sdk1    1.00GiB

System,RAID1C3: Size:64.00MiB, Used:1.03MiB (1.61%)
   /dev/sda1   64.00MiB
   /dev/sdc1   32.00MiB
   /dev/sdd1   32.00MiB
   /dev/sdb1   32.00MiB
   /dev/sdk1   32.00MiB

Unallocated:
   /dev/sdi1 314.51GiB
   /dev/sdf1 314.52GiB
   /dev/sda1 314.96GiB
   /dev/sdc1 313.99GiB
   /dev/sdg1 314.52GiB
   /dev/sdd1 314.73GiB
   /dev/sdb1 314.60GiB
   /dev/sdj1 119.24GiB
   /dev/sdk1 313.91GiB

Kód: [Vybrat]
Linux server 6.8.0-45-generic #45~22.04.1-Ubuntu SMP PREEMPT_DYNAMIC Wed Sep 11 15:25:05 UTC 2 x86_64 x86_64 x86_64 GNU/Linux
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 22.04.5 LTS
Release: 22.04
Codename: jammy
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: RDa 08. 10. 2024, 00:44:30
Pokud jsi v praze tak ti s tim rsyncem pomuzu (mam misto nebo volne disky na pujceni), ale nenapada me jak to resit kdyz je ten FS takova netykavka (napr. na ntfs a ext4 jsem psal vlastni driver/dekoder.. az me klene btrfs tak nejspis budu muset taky udelat nejake nastroje - vetsina magickych samochodu je k nicemu - obnova dat je vzdy interaktivni proces podle me).

Jsem ted nedavno nasadil btrfs na hlavni (8x14T) a zalozni (16x8T) stroj, data/meta oboji v raid6 (jsem si vedom nedokonalosti R5/R6 u btrfs pri padu - ale zas od toho jsou zalohy).

Pokud mas R1 a dva disky - zkousel jsi nechat v systemu pouze jeden a udelat scrub, nebo jine cteni - mam napr. z dob ext4 skrip ktery dela find .  -type f -exec md5sum (+- syntakticka omacka). Tohle bys mohl pustit nezavisle na obou pulkach mirroru a pak udelat sort & diff..  zda jsou tam ty data vazne nejak poskozena a na kterych souborech konkretne.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: Jan Fikar 08. 10. 2024, 06:53:33
Tak ty neopravitelné chyby jsou právě vlastnost RAID1. Dříve MD-RAID1 dostal nějaká data z jednoho disku a jiná z druhého disku - je to chyba, ale které si má vybrat jako správná - to neví. Ten rozdíl může jednoduše vzniknout třeba neočekávaným vypnutím, kdy jeden disk už stihne zapsat a druhý ne.

Na BTRFS by mohl z nich vybrat ta, u kterých pak bude souhlasit csum souboru, ale nevím, jestli je to tak implementováno. Rozdíl v datech je na úrovni bloků - pak by musel hledat jakému souboru to patří a ten kontrolovat. To v podstatě říkal RDa, že máte udělat scrub (kontrola csum) na jen jednom zapnutém disku. Tak se pozná, jestli na jednom z disku není některý soubor celý dobře. Ale samozřejmě soubor - to je více bloků. Takže to tak být vždy nemusí.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: rmrf 08. 10. 2024, 08:42:00
Poslední scrub proběhl v pořádku. Akorát to hází chybu v souboru marun/files/fotky/raw/2023-03-02/IMGP1750.dng, který má špatný kontrolní součet. Soubor je v háji, pokud neexistuje záloha někde jinde.

Kromě scrubu existuje i btrfs check, který zkontrouje strukturu btrfs na discích.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: Vantomas 08. 10. 2024, 10:14:52
A ty IO errory vyhazuje jen btrfs nebo už samotné disky/řadič? V logu jsou jen hlášky od btrfs, nic jiného tam není.

Z čeho je ten NAS postavený? Nějaký server nebo skládačka ze spotřebních komponent?

Mám totiž zkušenost, že se dokáže porouchat i běžný SATA kablík nebo mě třeba napadá, zda ten řadič zvládne obsluhovat 4TB disky. Podle HW a jeho staří bych tedy kontroloval i takovéhle věci, které jsou ještě před btrfs.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: Trident Vasco 08. 10. 2024, 11:43:29
Co rika smart? Zbehl si long test na vsech discich? Co rikaji smart logy (pokud je zarizeni umi) a pocitadla? Predpokladam ze na vsech zarizeni ho monitorujes. Tim spis pokud je to sbirka disku ruzneho puvodu.
Treba zminenou poruchu na sata kabliku lze vycist ze smart logu nebo kernel messages.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: jjrsk 08. 10. 2024, 13:40:45
Tak ty neopravitelné chyby jsou právě vlastnost RAID1....
Jenze btrfs neni md ... a pokud mas zapnute COW (coz bydefault je) a pokud funguje spravne, tak se presne tohle vubec stat nemuze. Protoze do metadat se aktualizuje pri zapisu az potom, co mas potvrzeny zapis na disk(y). Takze bud data zapsana mas, nebo nemas ale nic mezi tim.

Jinak bych rek, ze postup "mam chyby na 2 discich = pridam do pole dalsi 2 disky" je vadny od sameho pocatku. Specielne kdyz dotycny provozoval defakto jbod. Kdyz uz, tak by davalo smysl vedle udelat jine pole, data na nej prekopirovat (ta co pujdou) a pak se pripadne zaobirat temi, ktera ne.

Dtto pokusy o replace, co chces replacovat kdyz tam nemas zadny pole ??? Replace je akce, ktera funguje kdyz mas R1 nebo R5/6. To pole pak umi data dopocitat, ale co chces asi tak dopocitavat, kdyz mas jeden vadnej disk?

Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: rmrf 08. 10. 2024, 14:13:53
Ty chyby mu tam vznikly, když měl data pouze single. A od té doby se mu tam převalují z disku na disk, i když už teď má raid1.
Prostě zkontrolovat hardware, zjistit, jestli smart testy hází nějaké chyby. Pokud ano, disk(y) vyhodit, nebo sledovat a dávat velkého majzla.
Chybná data smáznout, případně nadradit zálohou, pokud nějaká je.
Jinak tomu btrfs jako takovému nejspíš vůbec nic není. Jenom ukazuje, že hardware pod ním pomrvil data.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: maruncz 08. 10. 2024, 17:26:25
RDa: díky za ochotu, ale z jižní moravy to je docela z ruky. Co se týče těch ostatních rad, to začíná být docela pokročilé a teď si úplně na takovéto experimenty netroufám. Počkám na další rady.

Jan Fikar: já bych očekával, že když scrub najde problém tak ho opraví z té druhé kopie. scrub už jsem pustil mnohokrát a pořád to tam visí.

rmrf: takový soubor tam aktuálně není, nemůže být v některém snapshotu? nešlo by zjistit ve kterém? btrfs check zkusím

Vantomas: dívám se teď že tam opravdu pár chyby komunikace s disky je. ale já sem ty disky i v pozicích prohazoval a pořád byly problémové ty stejné tak mě to mate.

Trident Vasco: smart sleduju na všech discích (přiložím). Smartem si nejsem úplně jistý, některým hodnotám nerozumím a u některých disků se stane že extended self test hodí chybu ale po zopakování chybu nehodí. Nas je z relativně nových desktopových komponent. MB je Gigabyte B560M D3H, CPU Intel(R) Pentium(R) Gold G6405 CPU @ 4.10GHz, a 2x KHX2133C14/8G, jediné 2 problémové místa vidím dodatečnou kartu SATA (MB neměla dost portů) a možná kabely, (celý lshw v příloze).

jirsik: chtěl bych to upřesnit. původně to jbod byl - neměl jsem dost kapacity. ale při první chybě jsem to nakonec rozšířil na raid1, ale mám pocit (úplně si to nepamatuju) že sem se poškozeného souboru tenkrát zbavil. Důvod proč jsem se snažil ty data přehrát byl, protože jsem chtěl ty disky otestovat, tudíž jsem se je snažil odstranit z pole, protože jsem o replace nevěděl tak sem šel cestou add a remove.

rmrf: jak jsem psal výše mám pocit že jsem se chyb zbavil, ale je to nějakou dobu a už si to nepamatuju. Pak jsem neměl čas to řešit
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: Rovano _ 09. 10. 2024, 15:18:41
sdj, není jisté zda je OK, když nemáme výstup smartu. Chápu, ž není součástí pole, ale když už, tak už.
Kód: [Vybrat]
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-6.8.0-45-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

Read Device Identity failed: scsi error unsupported scsi opcode

A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Kód: [Vybrat]
           *-usbhost:1
                product: xHCI Host Controller
                vendor: Linux 6.8.0-45-generic xhci-hcd
                physical id: 1
                bus info: usb@2
                logical name: usb2
                version: 6.08
                capabilities: usb-3.10
                configuration: driver=hub slots=6 speed=10000Mbit/s
              *-usb
                   description: Mass storage device
                   product: AXAGON USB M.2 box
                   vendor: AXAGON
                   physical id: 1
                   bus info: usb@2:1
                   logical name: scsi39
                   version: 2.14
                   serial: DD56419883A8B
                   capabilities: usb-3.20 scsi
                   configuration: driver=uas maxpower=896mA speed=5000Mbit/s
                 *-disk
                      description: SCSI Disk
                      product: M.2 P300 128
                      vendor: Patriot
                      physical id: 0.0.0
                      bus info: scsi@39:0.0.0
                      logical name: /dev/sdj
                      version: 0214
                      serial: DD56419883A8B
                      size: 119GiB (128GB)
                      capabilities: partitioned partitioned:dos
                      configuration: ansiversion=6 logicalsectorsize=512 sectorsize=4096 signature=184b96c4
                    *-volume
                         description: Linux filesystem partition
                         physical id: 1
                         bus info: scsi@39:0.0.0,1
                         logical name: /dev/sdj1
                         capacity: 119GiB
                         capabilities: primary
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: maruncz 09. 10. 2024, 19:30:18
tak jsem zkusil obnovit marun/files/fotky/raw/2023-03-02/IMGP1750.dng ze zálohy, pustil sem scrub a uvidím.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: rmrf 09. 10. 2024, 20:51:29
Ještě tenhle: marun/files/fotky/raw/2023/03-02/IMGP1750.dng
Ten taky hlásí chybu kontrolního součtu.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: maruncz 11. 10. 2024, 07:01:21
Tak jsem smazal všechny IMGP1750.dng ze všech snapshotů,obnovil ze zálohy a už tam chyby nemám.

Děkuji všem za rady.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: maruncz 13. 10. 2024, 08:30:20
Tak jsem tam kde jsem byl.
Po tom co mi scrub nenašel žádné chyby jsem odebral staré dísky a přidal ty 2 nové které jsem považoval za problémové. Mám tedy v poli 4x4TB a 2x3TB. Pak jsem udělal full rebalance abych ty data rovnoměrně rozložil, a pak jsem pro jistotu udělal další scrub.
Tento scrub nahlásil asi 1600 opravených chyb a 5 neopravitelných. Napadlo mě, jestli není problém v sata kabelech, tak jsem projistotu všechny u kterých nebylo patrné zda jsou na 6Gb/s vyměnil. Další scrub našel ty stejné neopravitelné chyby a 165 opravil.
Když jsem se díval do dmesg tak tam něco bylo ale nemyslím si, že to množství odpovídá počtu chyb na BTRFS.

poslední scrub:
Kód: [Vybrat]
UUID:             b9c58577-a996-4c69-bd43-4a2596eeb90d

Scrub device /dev/sde1 (id 4) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         3:43:05
Total to scrub:   1.54TiB
Rate:             119.79MiB/s
Error summary:    csum=5
  Corrected:      5
  Uncorrectable:  0
  Unverified:     0

Scrub device /dev/sdb1 (id 5) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         4:10:41
Total to scrub:   2.44TiB
Rate:             168.92MiB/s
Error summary:    no errors found

Scrub device /dev/sda1 (id 6) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         4:21:21
Total to scrub:   2.44TiB
Rate:             162.00MiB/s
Error summary:    no errors found

Scrub device /dev/sdf1 (id 7) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         3:38:16
Total to scrub:   1.54TiB
Rate:             122.43MiB/s
Error summary:    read=160 csum=5
  Corrected:      165
  Uncorrectable:  0
  Unverified:     0

Scrub device /dev/sdd1 (id 14) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         5:24:37
Total to scrub:   2.45TiB
Rate:             131.26MiB/s
Error summary:    csum=5
  Corrected:      0
  Uncorrectable:  5
  Unverified:     0

Scrub device /dev/sdc1 (id 15) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         5:24:30
Total to scrub:   2.45TiB
Rate:             131.31MiB/s
Error summary:    csum=5
  Corrected:      0
  Uncorrectable:  5
  Unverified:     0

Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: LamZelezo 13. 10. 2024, 17:22:45
No a byl teda proveden nejaky rozumny test pameti, jednotlivych disku atd? Nebo jen si tak plkame?
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: RDa 13. 10. 2024, 22:58:44
Mám tedy v poli 4x4TB a 2x3TB.

A ukladaci politika je jaka? mirror na 2 mista nebo neco lepsiho? Pri poctu 6 disku bych tam dal klidne R6 :) To by teoreticky melo dat (6-2)*3 + (4-2)*1 = 12+2 = 14 TB vyuzitelne kapacity.

A taky se pridavam k ostatnim.. ze pokud "neni jiste ze je to 6G" je neco co resite, tak bych tomu zadna data nesveroval. Pan je asi kaskader a opakovane varovani mu doposud nevyjasnili ze takhle ne..  achjo.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: rmrf 14. 10. 2024, 13:15:14

Asi by bylo vhodné zaměřit se na kontrolu hardwaru.

S.M.A.R.T. diagnostika disku: Klíčové položky, na které je potřeba se zaměřit:
    Reallocated_Sector_Ct: Počet přemapovaných sektorů. Zvýšený počet znamená problémy s povrchem disku.
    Pending_Sector: Počet sektorů čekajících na přemapování. Tento ukazatel je kritický.
    Uncorrectable_Sector: Počet neopravených sektorů.

Kontrola kabelů a připojení: Zkontrolovat fyzické připojení disku, zejména SATA/IDE kabely a napájecí kabely, které mohou být zdrojem problémů se čtením a zápisem dat.

Testování napájení: Nestabilní napájení může způsobovat problémy s diskem. V případě podezření na problémy s napájením je dobré zkontrolovat napájecí zdroje nebo zvážit použití UPS. Taky to, že všechny disky budou pověšené na jedné kšandě, stabilitě napájení moc nepřidá.

Kontrola RAM: Vadná paměť RAM se může v důsledku projevit chybami na disku.

Test povrchu disku: Např. badblocks.

Dál bych popřemýšlel nad tím, jestli je k filesystému s raid1 vhodné připojit dva potenciálně vadné disky a poté provést full rebalanc. Protože po tom rebalancu se alespoň některým datům může stát, že budou uložena právě a jen na těch dvou podezřelých discích. Pokud jsou ty disky podezřelé, otestoval bych je (smart, badblocks) někde jinde. Pokud tedy není k dispozici jiný systém, alespoň bych je v tom jediném možném systému otestoval samostatně předtím, než je připojím do raidu a nahraju na ně ostrá data.
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: maruncz 14. 10. 2024, 15:45:43
Citace
S.M.A.R.T. diagnostika disku: Klíčové položky, na které je potřeba se zaměřit:
    Reallocated_Sector_Ct: Počet přemapovaných sektorů. Zvýšený počet znamená problémy s povrchem disku.
    Pending_Sector: Počet sektorů čekajících na přemapování. Tento ukazatel je kritický.
    Uncorrectable_Sector: Počet neopravených sektorů.
kromě 1 realokovaného sektoru na jednom disku jsem tam neviděl problém, viz některý z předchozích příspěvků. (To že tam ten problém nevidím já neznamená že tam není)

Citace
Kontrola kabelů a připojení: Zkontrolovat fyzické připojení disku, zejména SATA/IDE kabely a napájecí kabely, které mohou být zdrojem problémů se čtením a zápisem dat.

Všechny sata kabely jsem před posledním scrubem vypojil a ty u kterých jsem měl pochybnosti vyměnil. Ale i tak tam byly chyby a to nejenom ty neopravitelné co tam jsou od minula.

Citace
Testování napájení: Nestabilní napájení může způsobovat problémy s diskem. V případě podezření na problémy s napájením je dobré zkontrolovat napájecí zdroje nebo zvážit použití UPS. Taky to, že všechny disky budou pověšené na jedné kšandě, stabilitě napájení moc nepřidá.
Mám to v této skříni: https://www.silverstonetek.com/en/product/info/server-nas/CS380/ . Má šuplíky na disky a k nim backplane. Zde mám máslo na hlavě, protože te%d jsem si to překontroloval, a našel jsem tam další napajecí konektory, které jsem neviděl.

Citace
Kontrola RAM: Vadná paměť RAM se může v důsledku projevit chybami na disku.

Memtest jedu od večera. Je tam 22 průchodů bez chyb. Asi to teď ale přeruším a přidám tam to chybějící napájení.

Citace
Test povrchu disku: Např. badblocks.

Ty dva nové 4TB seagate disky jsem první přejel badblocks - bez chyb. Pak jsem na ně nahrál data z těch 4TB WD, které jsem pak přejel badblocks - také bez chyb. Ty 3TB WD jsem netestoval, ale ty mě nebyly podezřelé.

Citace
Dál bych popřemýšlel nad tím, jestli je k filesystému s raid1 vhodné připojit dva potenciálně vadné disky a poté provést full rebalanc. Protože po tom rebalancu se alespoň některým datům může stát, že budou uložena právě a jen na těch dvou podezřelých discích. Pokud jsou ty disky podezřelé, otestoval bych je (smart, badblocks) někde jinde. Pokud tedy není k dispozici jiný systém, alespoň bych je v tom jediném možném systému otestoval samostatně předtím, než je připojím do raidu a nahraju na ně ostrá data.

Full rebalanc jsem udělal po tom, co mi vyšel scrub úplně bez chyb.


Půjdu teď přidat ty napájecí kabely, pak pustím scrub a uvidím co to udělá
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: RDa 14. 10. 2024, 16:20:38
Jeste pohlidat teplotu, pokud ty disky jsou nad sebou namackane
Název: Re:Chyby na různých discích na Btrfs poli
Přispěvatel: maruncz 14. 10. 2024, 16:23:18
Tak napájení opraveno, pouštím scrub.

Citace
Jeste pohlidat teplotu, pokud ty disky jsou nad sebou namackane
Do disků foukají ventilátory, a podle logů teploty nepřesáhly 40˚C.