Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - maruncz

Stran: [1]
1
Server / Re:Chyby na různých discích na Btrfs poli
« kdy: 14. 10. 2024, 16:23:18 »
Tak napájení opraveno, pouštím scrub.

Citace
Jeste pohlidat teplotu, pokud ty disky jsou nad sebou namackane
Do disků foukají ventilátory, a podle logů teploty nepřesáhly 40˚C.

2
Server / Re:Chyby na různých discích na Btrfs poli
« kdy: 14. 10. 2024, 15:45:43 »
Citace
S.M.A.R.T. diagnostika disku: Klíčové položky, na které je potřeba se zaměřit:
    Reallocated_Sector_Ct: Počet přemapovaných sektorů. Zvýšený počet znamená problémy s povrchem disku.
    Pending_Sector: Počet sektorů čekajících na přemapování. Tento ukazatel je kritický.
    Uncorrectable_Sector: Počet neopravených sektorů.
kromě 1 realokovaného sektoru na jednom disku jsem tam neviděl problém, viz některý z předchozích příspěvků. (To že tam ten problém nevidím já neznamená že tam není)

Citace
Kontrola kabelů a připojení: Zkontrolovat fyzické připojení disku, zejména SATA/IDE kabely a napájecí kabely, které mohou být zdrojem problémů se čtením a zápisem dat.

Všechny sata kabely jsem před posledním scrubem vypojil a ty u kterých jsem měl pochybnosti vyměnil. Ale i tak tam byly chyby a to nejenom ty neopravitelné co tam jsou od minula.

Citace
Testování napájení: Nestabilní napájení může způsobovat problémy s diskem. V případě podezření na problémy s napájením je dobré zkontrolovat napájecí zdroje nebo zvážit použití UPS. Taky to, že všechny disky budou pověšené na jedné kšandě, stabilitě napájení moc nepřidá.
Mám to v této skříni: https://www.silverstonetek.com/en/product/info/server-nas/CS380/ . Má šuplíky na disky a k nim backplane. Zde mám máslo na hlavě, protože te%d jsem si to překontroloval, a našel jsem tam další napajecí konektory, které jsem neviděl.

Citace
Kontrola RAM: Vadná paměť RAM se může v důsledku projevit chybami na disku.

Memtest jedu od večera. Je tam 22 průchodů bez chyb. Asi to teď ale přeruším a přidám tam to chybějící napájení.

Citace
Test povrchu disku: Např. badblocks.

Ty dva nové 4TB seagate disky jsem první přejel badblocks - bez chyb. Pak jsem na ně nahrál data z těch 4TB WD, které jsem pak přejel badblocks - také bez chyb. Ty 3TB WD jsem netestoval, ale ty mě nebyly podezřelé.

Citace
Dál bych popřemýšlel nad tím, jestli je k filesystému s raid1 vhodné připojit dva potenciálně vadné disky a poté provést full rebalanc. Protože po tom rebalancu se alespoň některým datům může stát, že budou uložena právě a jen na těch dvou podezřelých discích. Pokud jsou ty disky podezřelé, otestoval bych je (smart, badblocks) někde jinde. Pokud tedy není k dispozici jiný systém, alespoň bych je v tom jediném možném systému otestoval samostatně předtím, než je připojím do raidu a nahraju na ně ostrá data.

Full rebalanc jsem udělal po tom, co mi vyšel scrub úplně bez chyb.


Půjdu teď přidat ty napájecí kabely, pak pustím scrub a uvidím co to udělá

3
Server / Re:Chyby na různých discích na Btrfs poli
« kdy: 13. 10. 2024, 08:30:20 »
Tak jsem tam kde jsem byl.
Po tom co mi scrub nenašel žádné chyby jsem odebral staré dísky a přidal ty 2 nové které jsem považoval za problémové. Mám tedy v poli 4x4TB a 2x3TB. Pak jsem udělal full rebalance abych ty data rovnoměrně rozložil, a pak jsem pro jistotu udělal další scrub.
Tento scrub nahlásil asi 1600 opravených chyb a 5 neopravitelných. Napadlo mě, jestli není problém v sata kabelech, tak jsem projistotu všechny u kterých nebylo patrné zda jsou na 6Gb/s vyměnil. Další scrub našel ty stejné neopravitelné chyby a 165 opravil.
Když jsem se díval do dmesg tak tam něco bylo ale nemyslím si, že to množství odpovídá počtu chyb na BTRFS.

poslední scrub:
Kód: [Vybrat]
UUID:             b9c58577-a996-4c69-bd43-4a2596eeb90d

Scrub device /dev/sde1 (id 4) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         3:43:05
Total to scrub:   1.54TiB
Rate:             119.79MiB/s
Error summary:    csum=5
  Corrected:      5
  Uncorrectable:  0
  Unverified:     0

Scrub device /dev/sdb1 (id 5) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         4:10:41
Total to scrub:   2.44TiB
Rate:             168.92MiB/s
Error summary:    no errors found

Scrub device /dev/sda1 (id 6) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         4:21:21
Total to scrub:   2.44TiB
Rate:             162.00MiB/s
Error summary:    no errors found

Scrub device /dev/sdf1 (id 7) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         3:38:16
Total to scrub:   1.54TiB
Rate:             122.43MiB/s
Error summary:    read=160 csum=5
  Corrected:      165
  Uncorrectable:  0
  Unverified:     0

Scrub device /dev/sdd1 (id 14) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         5:24:37
Total to scrub:   2.45TiB
Rate:             131.26MiB/s
Error summary:    csum=5
  Corrected:      0
  Uncorrectable:  5
  Unverified:     0

Scrub device /dev/sdc1 (id 15) history
Scrub started:    Sat Oct 12 13:02:00 2024
Status:           finished
Duration:         5:24:30
Total to scrub:   2.45TiB
Rate:             131.31MiB/s
Error summary:    csum=5
  Corrected:      0
  Uncorrectable:  5
  Unverified:     0


4
Server / Re:Chyby na různých discích na Btrfs poli
« kdy: 11. 10. 2024, 07:01:21 »
Tak jsem smazal všechny IMGP1750.dng ze všech snapshotů,obnovil ze zálohy a už tam chyby nemám.

Děkuji všem za rady.

5
Server / Re:Chyby na různých discích na Btrfs poli
« kdy: 09. 10. 2024, 19:30:18 »
tak jsem zkusil obnovit marun/files/fotky/raw/2023-03-02/IMGP1750.dng ze zálohy, pustil sem scrub a uvidím.

6
Server / Re:Chyby na různých discích na Btrfs poli
« kdy: 08. 10. 2024, 17:26:25 »
RDa: díky za ochotu, ale z jižní moravy to je docela z ruky. Co se týče těch ostatních rad, to začíná být docela pokročilé a teď si úplně na takovéto experimenty netroufám. Počkám na další rady.

Jan Fikar: já bych očekával, že když scrub najde problém tak ho opraví z té druhé kopie. scrub už jsem pustil mnohokrát a pořád to tam visí.

rmrf: takový soubor tam aktuálně není, nemůže být v některém snapshotu? nešlo by zjistit ve kterém? btrfs check zkusím

Vantomas: dívám se teď že tam opravdu pár chyby komunikace s disky je. ale já sem ty disky i v pozicích prohazoval a pořád byly problémové ty stejné tak mě to mate.

Trident Vasco: smart sleduju na všech discích (přiložím). Smartem si nejsem úplně jistý, některým hodnotám nerozumím a u některých disků se stane že extended self test hodí chybu ale po zopakování chybu nehodí. Nas je z relativně nových desktopových komponent. MB je Gigabyte B560M D3H, CPU Intel(R) Pentium(R) Gold G6405 CPU @ 4.10GHz, a 2x KHX2133C14/8G, jediné 2 problémové místa vidím dodatečnou kartu SATA (MB neměla dost portů) a možná kabely, (celý lshw v příloze).

jirsik: chtěl bych to upřesnit. původně to jbod byl - neměl jsem dost kapacity. ale při první chybě jsem to nakonec rozšířil na raid1, ale mám pocit (úplně si to nepamatuju) že sem se poškozeného souboru tenkrát zbavil. Důvod proč jsem se snažil ty data přehrát byl, protože jsem chtěl ty disky otestovat, tudíž jsem se je snažil odstranit z pole, protože jsem o replace nevěděl tak sem šel cestou add a remove.

rmrf: jak jsem psal výše mám pocit že jsem se chyb zbavil, ale je to nějakou dobu a už si to nepamatuju. Pak jsem neměl čas to řešit

7
Server / Chyby na různých discích na Btrfs poli
« kdy: 07. 10. 2024, 18:49:45 »
Zdravím

postavil jsem si NAS a vytvořil na něm pole disků z btrfs.
Disky jsou tak trochu co dům dal. Nekteré starší, některé nové, ale hlídal jsem si aby neměly špatné sektory.
Původně jsem neměl na redundanci kapacitu tak jsem měl data:single a metadata:raid1.
Pravidelně jsem pouštěl scrub abych si ověřil že data nehnijí.
Jednou mě to ale opravdu našlo chybu na nějakém souboru. Naštěstí na něm nezáleželo tak jsem ho smazal a rozšířil jsem pole abych mohl mít data:raid1 a metadata:raid1c3.
Pak ale po jednom scrubu naskákalo 5 neopravitelných chyb na dvou discích (dva úplně nové stejné WD40EFPX-68C) a při dalším scrubu ty chyby nezmizely. Z logů nebylo patrné kde to nastalo, sice jsem hledal na internetu ale na nic jsem nepřišel.
Pak jsem bohužel na problém neměl čas a NAS stejně ležel většinu doby vyplý.
Teď jsem se k tomu opět dostal. Po dalším zkoumání mě nenapadlo nic lepšího než koupit 2 nové disky(tentokrát sem si řekl že koupím seagate ST4000NE001-2MA1), abych mohl z těchto disků data odlét a zkusit je na špatné sektory nebo s nimi něco udělat.
Tak jsem ty nové disky přidal do pole pomocí device add a problémové jsem dal odstraňovat pomocí device delete.
Jenže v průběhu odstraňování to napsalo prostě I/O error a nedokončilo se (u obou disků).
Na internetu jsem našel, že existuje btrfs replace a tím jsem vyměnil, ale během tohoto procesu vyskákalo do logu celá řada chyb, kterým nerozumím, a při následném scrubu vyskákaly také (přikládám log).

Není mě jasné proč chyby skáčou na těchto discích, zrovna nové ne staré. Není to ani šuplíkem v PC protože jsem v pátek kolem 4 hodiny PC vypl a jeden z problémových disků přestěhoval do jiné pozice.
A proč teď skáčou na těch nových. Očekával bych že se po srcubu nebo replacu ty chyby opraví.

Chtěl bych proto požádat o radu, kde dělám chybu a jak z toho ven. Už mě jen napadá koupit dostatek nových disků a data pomocí rsync překopírovat na nové pole a doufat že už to nenastane.


Kód: [Vybrat]
Model: ATA ST4000NE001-2MA1 (scsi)
Disk /dev/sda: 4001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name  Flags
 1      1049kB  4001GB  4001GB  btrfs


Model: ATA WDC WD7500BPKX-8 (scsi)
Disk /dev/sdb: 750GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:

Number  Start   End    Size   Type     File system  Flags
 1      1049kB  750GB  750GB  primary  btrfs


Model: ATA ST4000NE001-2MA1 (scsi)
Disk /dev/sdc: 4001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name  Flags
 1      1049kB  4001GB  4001GB  btrfs


Model: ATA WDC WD5000AAKS-0 (scsi)
Disk /dev/sdd: 500GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number  Start   End    Size   Type     File system  Flags
 1      1049kB  500GB  500GB  primary  btrfs


Error: /dev/sde: unrecognised disk label
Model: ATA WDC WD40EFPX-68C (scsi)                                       
Disk /dev/sde: 4001GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:

Model: ATA WDC WD30EFRX-68E (scsi)
Disk /dev/sdf: 3001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name  Flags
 1      1049kB  3001GB  3001GB  btrfs        data


Model: WD_BLACK SN770 250GB (nvme)
Disk /dev/nvme0n1: 250GB
Sector size (logical/physical): 512B/512B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system     Name  Flags
 1      1049kB  1128MB  1127MB  fat32                 boot, esp
 2      1128MB  239GB   238GB   btrfs
 3      239GB   250GB   10,7GB  linux-swap(v1)        swap


Model: Realtek RTL9210B-CG (scsi)
Disk /dev/sdk: 512GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number  Start   End    Size   Type     File system  Flags
 1      1049kB  512GB  512GB  primary  btrfs


Model: ATA WDC WD10EZEX-08M (scsi)
Disk /dev/sdi: 1000GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:

Number  Start   End     Size    Type     File system  Flags
 1      1049kB  1000GB  1000GB  primary  btrfs


Model: ATA WDC WD30EFRX-68E (scsi)
Disk /dev/sdg: 3001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name  Flags
 1      1049kB  3001GB  3001GB  btrfs


Model: Patriot M.2 P300 128 (scsi)
Disk /dev/sdj: 128GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:

Number  Start   End    Size   Type     File system  Flags
 1      1049kB  128GB  128GB  primary  btrfs


Error: /dev/sdh: unrecognised disk label
Model: ATA WDC WD40EFPX-68C (scsi)                                       
Disk /dev/sdh: 4001GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:


disky sdb sdj a sdk úplně neřešte, přidal jsem je do pole ať mám větší manévrovací prostor, pak je odstraním.

Kód: [Vybrat]
Overall:
    Device size:   15.36TiB
    Device allocated:   12.79TiB
    Device unallocated:    2.57TiB
    Device missing:      0.00B
    Used:   12.77TiB
    Free (estimated):    1.29TiB (min: 886.65GiB)
    Free (statfs, df):    1.24TiB
    Data ratio:       2.00
    Metadata ratio:       3.00
    Global reserve: 512.00MiB (used: 0.00B)
    Multiple profiles:         no

Data,RAID1: Size:6.38TiB, Used:6.38TiB (99.87%)
   /dev/sdi1 614.00GiB
   /dev/sdf1    2.42TiB
   /dev/sda1    3.33TiB
   /dev/sdc1    3.33TiB
   /dev/sdg1    2.42TiB
   /dev/sdd1 151.00GiB
   /dev/sdb1 381.00GiB
   /dev/sdk1 162.00GiB

Metadata,RAID1C3: Size:8.00GiB, Used:7.41GiB (92.67%)
   /dev/sdi1    3.00GiB
   /dev/sdf1    4.00GiB
   /dev/sda1    5.00GiB
   /dev/sdc1    5.00GiB
   /dev/sdg1    3.00GiB
   /dev/sdb1    3.00GiB
   /dev/sdk1    1.00GiB

System,RAID1C3: Size:64.00MiB, Used:1.03MiB (1.61%)
   /dev/sda1   64.00MiB
   /dev/sdc1   32.00MiB
   /dev/sdd1   32.00MiB
   /dev/sdb1   32.00MiB
   /dev/sdk1   32.00MiB

Unallocated:
   /dev/sdi1 314.51GiB
   /dev/sdf1 314.52GiB
   /dev/sda1 314.96GiB
   /dev/sdc1 313.99GiB
   /dev/sdg1 314.52GiB
   /dev/sdd1 314.73GiB
   /dev/sdb1 314.60GiB
   /dev/sdj1 119.24GiB
   /dev/sdk1 313.91GiB

Kód: [Vybrat]
Linux server 6.8.0-45-generic #45~22.04.1-Ubuntu SMP PREEMPT_DYNAMIC Wed Sep 11 15:25:05 UTC 2 x86_64 x86_64 x86_64 GNU/Linux
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 22.04.5 LTS
Release: 22.04
Codename: jammy

Stran: [1]