Migrace RAID 5 ze tří disků na čtyři

Filip Jirsák · « **Odpověď #15 kdy:** 22. 02. 2021, 17:55:16 »

Citace: Logik 22. 02. 2021, 17:11:45

Pokud algoritmy na expanzi počítají s možností tuto expanzi po chybě "zresuscitovat a pokračovat v ní". Což nemusí být pravidlem....

Bavíme se tu o NASu a rozšíření z 3 disků na 4. Takže je to nějaký spotřební NAS, nejspíš Synology nebo QNAP, a uvnitř softwarový RAID na Linuxu (nejspíš mdraid, případně btrfs – nevím, zda už ho Synology nebo QNAP používá i na RAID).

Citace: PanVP 22. 02. 2021, 17:33:54

Filipe, máš velmi dobré postřehy ohledně webu, ale tady mám převahu znalostí já.

Kdybyste napsal, v čem je tedy rozdíl, byl by váš komentář užitečnější.

Citace: PanVP 22. 02. 2021, 17:33:54

U některých výrobců řadičů to dělají tak a jinde onak...

Linuxový softwarový RAID to má tedy jak? (Hodně by mne překvapilo, kdyby to nebylo D).

Reklama

PanVP · « **Odpověď #16 kdy:** 22. 02. 2021, 18:16:05 »

Citace: Filip Jirsák 22. 02. 2021, 17:55:16

Ale já nehovořil o SW raidu, tohle je ten můj post.

Citace: PanVP 21. 02. 2021, 10:38:35

Já bych dokonce byl méně optimistický než ostatní.

Tohle bude na 99% SW RAID, takže to možná půjde "bezbolestně", ale v mnoha jiných případech je jediná šance celé pole zbořit a postavit ho znova. A mezi námi, když už bych měl dělat podobnou údržbu pole, celé bych ho rozebral, jednotlivé disky otestoval a pokud mají natočeno cokoliv nad 15 tisíc hodin, budou brzo zralé na výměnu. Když z těch disků uděláš záložní, kam budeš data odlévat 1x týdně, máš řešení na dalších 5 let a pak ho ještě funkční vyhodíš.

Co z toho chceš rozporovat?
Ty hodiny?
Kolik disků mám přinést, abys pokýval hlavou a řekl "Tyyyy voe, tolik a všechny mají okolo 20 (21,24,23,25..) tisíc hodin!" ?

Mám jich dvacet žlutých, bude to stačit?

Filip Jirsák · « **Odpověď #17 kdy:** 22. 02. 2021, 20:27:23 »

Citace: PanVP 22. 02. 2021, 18:16:05

Co z toho chceš rozporovat?

Kdybych něco z toho chtěl rozporovat, tak to rozporuju.

k3dAR · « **Odpověď #18 kdy:** 22. 02. 2021, 22:30:14 »

Citace: PanVP 22. 02. 2021, 15:47:04

Ty raději nemluv!

tohle si zkousej doma ;-)

Citace: PanVP 22. 02. 2021, 15:47:04

A to nemluvím o tom, že RAID 6 snese samozřejmě selhání i dvou disků!

ano, na to sem upozornoval ;-)

Citace: PanVP 22. 02. 2021, 15:47:04

Tak jen pro info, mám tu hromadu disků od WD i Seagate a po natočení 20 tisíc hodin začínají chcípat.
Proto, pokud máš disky s 15 tisíci natočenými hodinami, zbývá už jen 5 tisíc hodin, než se začnou objevovat selhání.
Takže budou BRZO zralé na výměnu.

to je bud:
1. tvuj problem HW
2. problem s tvojim specifickym zatizenim pole
ale rozhodne ne pravidlo jak se "namachrovane" tvaris ;-)
pro jine info, mam 2 servery, v obou po 7x WD Red 4TB v RAID6, disky maji nabehano ~25.000 az ~27.000 hodin a NEchcipaji ;-) puvodni disky byli Hitachi 2TB a meli nabehano pres 35.000hodin a NEchcipli, jen se proste menilo za vetsi...

redustin · « **Odpověď #19 kdy:** 23. 02. 2021, 09:19:19 »

Kód: [Vybrat]

/dev/sda
Product:              DG072ABAB3
  number of hours powered up = 51366.90

/dev/sdb
Device Model:     INTEL SSDSC2BB300G4
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       52995
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       0

/dev/sdc
Device Model:     Samsung SSD 860 DCT 960GB
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       8410
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0

/dev/sdd
Device Model:     SAMSUNG MZ7WD240HCFV-000H2
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       48566
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0033   100   100   005    Pre-fail  Always       -       0

/dev/sde
Product:              DG072ABAB3
  number of hours powered up = 21170.05

/dev/sdf
Device Model:     TOSHIBA HDWN160
  9 Power_On_Hours          0x0032   033   033   000    Old_age   Always       -       26824
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdg
Device Model:     WDC WD30EFRX-68AX9N0
  9 Power_On_Hours          0x0032   030   030   000    Old_age   Always       -       51612
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

/dev/sdh
Device Model:     WDC WD30EFRX-68AX9N0
  9 Power_On_Hours          0x0032   055   055   000    Old_age   Always       -       33329
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

/dev/sdi
Device Model:     WDC WD30EFRX-68EUZN0
  9 Power_On_Hours          0x0032   032   032   000    Old_age   Always       -       49803
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

/dev/sdj
Device Model:     WDC WD30EFRX-68AX9N0
  9 Power_On_Hours          0x0032   054   054   000    Old_age   Always       -       33756
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

/dev/sdk
Device Model:     WDC WD30EFRX-68EUZN0
  9 Power_On_Hours          0x0032   058   058   000    Old_age   Always       -       30940
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

/dev/sdl
Device Model:     TOSHIBA HDWT360
  9 Power_On_Hours          0x0032   073   073   000    Old_age   Always       -       10848
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdm
Device Model:     TOSHIBA HDWD130
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       19989
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdn
Device Model:     TOSHIBA DT01ACA300
  9 Power_On_Hours          0x0012   094   094   000    Old_age   Always       -       43623
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdo
Device Model:     ST6000VX0023-2EF110
  9 Power_On_Hours          0x0032   061   061   000    Old_age   Always       -       34944 (137 19 0)
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0

/dev/sdp
Device Model:     WDC WD30EFRX-68AX9N0
  9 Power_On_Hours          0x0032   007   007   000    Old_age   Always       -       68447
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

/dev/sdq
Device Model:     WDC WD60EFRX-68L0BN1
  9 Power_On_Hours          0x0032   063   063   000    Old_age   Always       -       27108
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

/dev/sdr
Device Model:     WDC WD60EFRX-68L0BN1
  9 Power_On_Hours          0x0032   063   063   000    Old_age   Always       -       27107
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

/dev/sds
Device Model:     TOSHIBA HDWE160
  9 Power_On_Hours          0x0032   013   013   000    Old_age   Always       -       34871
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdt
Device Model:     TOSHIBA DT01ACA300
  9 Power_On_Hours          0x0012   096   096   000    Old_age   Always       -       34886
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdu
Device Model:     TOSHIBA HDWE160
  9 Power_On_Hours          0x0032   048   048   000    Old_age   Always       -       20896
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdv
Device Model:     TOSHIBA HDWN160
  9 Power_On_Hours          0x0032   033   033   000    Old_age   Always       -       26822
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdw
Device Model:     TOSHIBA HDWN160
  9 Power_On_Hours          0x0032   033   033   000    Old_age   Always       -       27129
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

/dev/sdx
Device Model:     ST6000VN0041-2EL11C
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       27140 (171 32 0)
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0

/dev/sdy
Device Model:     ST6000VN0041-2EL11C
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       27141 (53 169 0)
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0

Reklama

PanVP · « **Odpověď #20 kdy:** 23. 02. 2021, 10:02:47 »

Citace: redustin 23. 02. 2021, 09:19:19

Citace

je cosi shnilého ve státě dánském

redustin · « **Odpověď #21 kdy:** 23. 02. 2021, 10:12:21 »

Jj, něco ti tam hnije, že ti disky vydrží tak krátce.

Exceptions · « **Odpověď #22 kdy:** 23. 02. 2021, 10:22:56 »

Citace: PanVP 22. 02. 2021, 15:47:04

Tak jen pro info, mám tu hromadu disků od WD i Seagate a po natočení 20 tisíc hodin začínají chcípat.
Proto, pokud máš disky s 15 tisíci natočenými hodinami, zbývá už jen 5 tisíc hodin, než se začnou objevovat selhání.
Takže budou BRZO zralé na výměnu.

O jaké řady disků se jedná? Poměrně velkou nestabilitu vykazují od WD třeba RED disky, ty jejich HAMR či MAMR jsou takové trojské koně, to ale do diskových polí do firem snad nikdo s rozumem nekupuje. Ta poruchovost je opravdu vysoká.

Koukám na to, jeden klient, 8 000 disků, průměrný běh skoro 60 000, reklamovanost odhadem asi 0,5 % ročně (celkem jich je offline 500, ale důvod nevím), všechny disky jsou pod pernamentní zátěží. Vesměs Dell nebo HPE SAS kombinace LFF/SFF.

15 000 hodin je strašně krátká doba, to sotva stačí na záruku u koncáků, ve firmách se často nakupuje s 3 nebo 5 letou zárukou, většina disků se vyřazuje kvůli stáří a efektivitě než kvůli nefunkčnosti. Vyjímečně se narazí na vadnou sérii, tak padne celá do pár měsíců, ale to jsem zažil jedenkrát.

PanVP · « **Odpověď #23 kdy:** 23. 02. 2021, 11:44:52 »

Citace: AoK 23. 02. 2021, 10:22:56

15 000 hodin je strašně krátká doba, to sotva stačí na záruku u koncáků

To je samozřejmě nesmysl, consumer HW je konstruovaný aby fungoval 5*8 tj. 5 dní v týdnu 8 hodin.
15 000 hodin v kuse také není konečná, vezmi si, že natočíš 365*24 hodin v kuse v nonstop provozu a má to vydržet dva až tři roky záruky, podle typu. U consumer grade disků.

Pak jsou samozřejmě serverové, jako WD Goldy nebo vyšší třídy IronWolfů (pro) a podobně, ale to snad nečekáte, že bude mít někdo v domácí NASce...

Exceptions · « **Odpověď #24 kdy:** 23. 02. 2021, 12:48:26 »

Citace: PanVP 23. 02. 2021, 11:44:52

Citace: AoK 23. 02. 2021, 10:22:56
15 000 hodin je strašně krátká doba, to sotva stačí na záruku u koncáků

To je samozřejmě nesmysl, consumer HW je konstruovaný aby fungoval 5*8 tj. 5 dní v týdnu 8 hodin.
15 000 hodin v kuse také není konečná, vezmi si, že natočíš 365*24 hodin v kuse v nonstop provozu a má to vydržet dva až tři roky záruky, podle typu. U consumer grade disků.

Pak jsou samozřejmě serverové, jako WD Goldy nebo vyšší třídy IronWolfů (pro) a podobně, ale to snad nečekáte, že bude mít někdo v domácí NASce...

Tohle se píše na alze např. u WD Red 4TB,https://www.alza.cz/wd-red-4tb-d5757222.htm

Citace: Alza.cz

Pevný disk WD Red 4TB je řazen do skupiny vytížených interních HDD pro uložiště s nepřetržitým provozem

WD Gold jsou přeznačkované HGST, pouze v SATA, v serverech jsem to nikdy neviděl, tam zpravidla ani SATA disky se ze spousty důvodů nedávají. WD UltraStar vypadají již vhodněji, ale v českém prostředí jsem se s nimi také nesetkal a netuším, kdo to kde kupuje. Seagate IronWolf je to samé, pouze SATA, cílovka je konzumní sektor a malé pole. Tyhle série prostě se do serverů a do enterprise moc nedostávají - chybí asi dodavatelé, kteří by poskytovali správnou záruku a množství, do nabídek se nám tyhle věci vůbec nedostávají a nikdo je nenabízí.

PanVP · « **Odpověď #25 kdy:** 23. 02. 2021, 13:17:09 »

Citace: AoK 23. 02. 2021, 12:48:26

Tak ta situace je poněkud složitější.

Nicméně v tom logu ze SMART, jak dával:

Citace: redustin 23. 02. 2021, 09:19:19

...jsou prostě disky, které měly umřít před 20 000 hodinami.

Třeba některá ta WD...

Vážně nemyslím Seagate SV35, ty mi umíraly při 30-40 tisíci hodinách, po 4-5 letech a v serverovně natočily 40-50 tisíc.

Samozřejmě hodně záleží na:
- teplotě, disky provozované v ideální teplotě vydrží déle než v někde v NASu nastaveném tak, aby nehučel (čti: pečou se)
- vytížení, jestli se disk jen točí nebo jestli i něco dělá
- vibracím okolí
- nejspíš várce daných disků

I tak mi přijde, že se tam musela polovina disků jen tak točit, aniž by cokoliv zapsala.
Nebo to jsou disky, které prostě přežily....takových disků držáků mám taky hodně...
Byl bych ochoten svůj post a svůj názor poupravit na "Disky po 20 tisících hodinách budou brzo zralé na výměnu". Samozřejmě mluvím o consumer grade discích, než o těch lepších s MTBF 1 milion hodin atd...

Jenže mi nějak nesedí, že by disk v běžném nasíku vydržel 50 tisíc hodin, kolik najedou v "ideálním prostředí serverovny". Fakt mě napadá, že dělal naprosté prd a jen se točil.
Jenže ani tak to pořád nesedí na některé disky, které měly chcípnou pradávno dřív...

czmiho · « **Odpověď #26 kdy:** 23. 02. 2021, 16:49:23 »

Nějak mi nedává smysl, že by WD prodával REDy (určené pro NASy, tedy pro trvalý provoz a s vypnutým uspáváním) se zárukou 3 roky (5 u RED pro), když jsou po 2,3 letech "zralé na výměnu". Také to neodpovídá mé skromné zkušenosti s 8x3TB RAIDZ2, kde měly všechny disky natočené přes 50 tisíc (a pole se rozhodně neflákalo, jelo tam trvale několik virtuálů + hodinové snapshoty) a nebyl jediný problém.

Abych nebyl zcela OT. Mám zkušenost s rozšířováním 5x8TB RAID6 na md - trvalo to celou věčnost. Takže za mě - vykopírovat ven (s redundancí), rozbořit, postavit, nakopírovat zpět. Zejména pokud není celé diskové pole zaplněné daty (md neví, kde jsou data, musí resilvernout všechno).

Filip Jirsák · « **Odpověď #27 kdy:** 23. 02. 2021, 18:35:14 »

Citace: czmiho 23. 02. 2021, 16:49:23

Nějak mi nedává smysl, že by WD prodával REDy (určené pro NASy, tedy pro trvalý provoz a s vypnutým uspáváním) se zárukou 3 roky (5 u RED pro), když jsou po 2,3 letech "zralé na výměnu".

„Záruka“ znamená, že výrobek nemá skryté výrobní vady. S životností výrobku (opotřebením způsobeným běžným používáním) nemá nic společného. Takže nic nebrání tomu, aby poskytovaná záruka byla delší, než průměrná životnost výrobku. (Nevyjadřuju se k tomu, zda disk je či není po 20 tisíci hodinách zralý na výměnu.) Také je samozřejmě otázka, kdy je ještě málo nadimenzovaná součástka, která se opotřebuje třeba za dva roky, něco, s čím má kupující počítat, a kdy už je to výrobní vada.

Exceptions · « **Odpověď #28 kdy:** 23. 02. 2021, 18:43:21 »

pokud jde o to rozšíření raidu, lepší je se mu vždy vyhnout, zejména u těch levných NASů, může to udělat hodně problémů, vlastně se člověk to bojí dělat i u těch drahých. Pokud máš možnost, dej data bokem a udělej raid od nuly, budeš to mít pod kontrolou a nemusíš spoléhat na funkčnost raidu. V opačném případě je dobré si to vždy dopředu vyzkoušet nanečisto, na to ale potřebuješ druhý NAS.

Těším se na dobu až raid vymře, podle mě to je jedna z nejhorších technologií co v IT máme. V domácích podmínkách díky SW implementaci to je šíleně nespolehlivé, v enterprise to je pozlacený blackbox, který funguje 100 % spolehlivě do prvního výpadku, ten pak stojí za to.

PanVP · « **Odpověď #29 kdy:** 23. 02. 2021, 19:27:28 »

Citace: czmiho 23. 02. 2021, 16:49:23

když jsou po 2,3 letech "zralé na výměnu".

Napsal jsem to skutečně nešťastně, byť si za obsahem stojím.

Pokud bych měl pole s disky, které mají natočeno víc než 15 tisíc hodin, tedy řekněme 16-18 tisíc hodin.
Jen stěží mohu očekávat, že natočí dalších 18 tisíc hodin. Tedy že budou "brzo" zralé na výměnu.
(Možná tak v klimatizované serverovně natočí 50 tisíc.)
Je tedy otázka, jestli takové pole přestavovat nebo raději disky rovnou vyměnit.
To není otázka na mě, protože to není moje pole.
A kdyby to byla otázka na mě, tak bych uvážil, jak moc to pole je zatížené, co to je za disky, jak moc dobře je chlazené a jestli náhodou nebude dražší a složitější tam znovu jet, než rovnou vyměnit ty disky.

Kdo z vás by si na autě nechával brzdové kotouče za polovinou životnosti? Když už to máte rozdělané...

Mimochodem, takové zaklínadlo "že smart" nic nehlásí, to je sice pěkné, ale pokud disk pořádně neotestujete, stejně nic nepoznáte. Smart hlásí jen to, že se disk točí a že v místech, na která běžně zapisuje, jsou normálně čitelné sektory - nebo že to firmware disku stíhá přesouvat dřív, než to vyteče ve formě zcela nečitelných sektorů.

Pak můžete náhodou zjistit, že disk byl do teď sice happy, ale že skutečnost je diametrálně odlišná.
Moje zkušenost je evidentně sdělitelná, ale nepřenositelná.

Asi ani nemá smysl řešit to, že jediné spolehlivé otestování disku, je zaplnit ho "stejnými soubory" a začít z něj číst.
Pokud se v grafu objeví výpadky, tj. teď disk kopíroval 190 MB/s a teď spadnul na 60 MB/s, něco se s ním asi děje.
Jinak rychlost čtení z disku klesá s tím, jak se blížíme ke středu. Tj. začínáme na 190 MB/s a končíme na 120 MB/s.
Samozřejmě si stáhnete atributy SMART, které se v průběhu testu nesmí pohnout - ve významných atributech.
Také mě zajímá, jestli hlučnost disku nějak nevzrostla, jestli se náhodou nehřeje víc, než se hřál (já si třeba na disky zaznamenávám fixou konec záruky a teplotu po 10-ti minutách kopírování).
A samozřejmě, pokud se disk tváří v pohodě, tak ho vracím do provozu - což disky z malých NASíků spíš předstírají.
Nehledě na to, že do malých nasíků lidé strkají všelijaké jebky s dvouletou zárukou určené do desktopů.

Howg, dál se o tom bavit nebudu.

Mám svojí práci s Pythonem...

Migrace RAID 5 ze tří disků na čtyři

Filip Jirsák

Re:Migrace RAID 5 ze tří disků na čtyři

Reklama

PanVP

Re:Migrace RAID 5 ze tří disků na čtyři

Filip Jirsák

Re:Migrace RAID 5 ze tří disků na čtyři

k3dAR

Re:Migrace RAID 5 ze tří disků na čtyři

redustin

Re:Migrace RAID 5 ze tří disků na čtyři

Reklama

PanVP

Re:Migrace RAID 5 ze tří disků na čtyři

redustin

Re:Migrace RAID 5 ze tří disků na čtyři

Exceptions

Re:Migrace RAID 5 ze tří disků na čtyři

PanVP

Re:Migrace RAID 5 ze tří disků na čtyři

Exceptions

Re:Migrace RAID 5 ze tří disků na čtyři

PanVP

Re:Migrace RAID 5 ze tří disků na čtyři

czmiho

Re:Migrace RAID 5 ze tří disků na čtyři

Filip Jirsák

Re:Migrace RAID 5 ze tří disků na čtyři

Exceptions

Re:Migrace RAID 5 ze tří disků na čtyři

PanVP

Re:Migrace RAID 5 ze tří disků na čtyři