HW raid 10 vs 6

RDa · « **Odpověď #15 kdy:** 21. 01. 2021, 18:25:19 »

Citace: farbydos2 21. 01. 2021, 12:55:53

Někdy se může jevit jako zajímavá varianta nestandardní raid: https://en.wikipedia.org/wiki/Non-standard_RAID_levels. Třeba pro vás může být zajímavý raid 6e. Jak byste raid implementoval? Jako softwarový nebo máte dedikovaný řadič s raidem? A jak se zhruba jeví zátěž jednotlivých VM pro diskové pole?

Raid5E/6E nebrat, protoze vyhozeni disku spousti proces ktery prekope cely pole do jineho poctu disku a useekuje se to k smrti.
Raid5EE/6EE je jiz zajimavejsi, ze to jsou data prolnuta prazdnym mistem a odpada velikej disk seek.

Jakkoliv, klasicky raid 5/6 s hotspare dela zatez (N-1)*R+1*W pri rebuildu, zatimco tyhle E/EE vymysly az N*R+N*W, takze vykonove si prilis nepomuzete :-)

Reklama

M Z · « **Odpověď #16 kdy:** 21. 01. 2021, 20:32:53 »

No po pravde bych dnes pro takhle malou kapacitu tocici disky vubec neuvazoval. Pokud tam nebudou nejake extremni zapisy, dal bych tam, dva 7TB nvme (napr. Samsung PM983) v raid1 a hotovo. S 1.3 DWPD na 5 let by to nemusel byt zadny problem.

Exceptions · « **Odpověď #17 kdy:** 21. 01. 2021, 21:07:47 »

Citace: M Z 21. 01. 2021, 20:32:53

No po pravde bych dnes pro takhle malou kapacitu tocici disky vubec neuvazoval. Pokud tam nebudou nejake extremni zapisy, dal bych tam, dva 7TB nvme (napr. Samsung PM983) v raid1 a hotovo. S 1.3 DWPD na 5 let by to nemusel byt zadny problem.

v takovém případě můžeš použít jen SW raid (ty HW v běžných serverech nemají podporuje pcie a nvme). SW raid pro tyhle rychlé disky je dost úzké hrdlo a nesplní to očekávání (odzkoušeno), výrazně klesnou iops při paralelním přístup z více procesů a riziko rozbití FS při ztrátě napájení je obrovské, běžně raid děláš i kvůli záloze dat a spolehlivosti a nikoliv jen kvůli rychlosti.

Každopádně využít ssd v raid může být dobrá cesta, jen cena je astronomická, takový dva HPE 6.4TB SAS (MU) v serveru výjdou na 300k (pokud mám dobrou slevu). To asi není dobrý směr. Kupovat konzumní na satě s tlc/qlc technologií se také může vymstít, zejména, když jsou data cennější než ty disky.

Po těch spoustě rozbitých FS při problémech s napájením bych do SW raid už nešel, je to strašně moc práce v době, kdy to člověk nechce řešit. Buď HW raid s baterii (i z bazaru stojí pár korun) nebo nějaký distribuovaný FS, což je mimochodem věc, kterou poslední dobou u projetků ty drahá disková pole nahrazujeme.

mfrd · « **Odpověď #18 kdy:** 21. 01. 2021, 21:34:06 »

Citace: PanVP 21. 01. 2021, 08:26:05

Citace: RDa 21. 01. 2021, 01:45:39
Vetsina lidi vidi R6 jako "je tam prece vice disku = vetsi vykon, vetsi kapacita".
Ale nikdy nezazili prakticky provoz v degraded stavu, a na R6 to je fakt hodne znat.
Rebuild pole je kritická chvíle, kdy (často) hrozí selhání dalších disků.
To je paradoxně nebezpečnější u R10 než u R6. Protože na R6 mohou odejít dva disky, proto se u R6 ~~doporučuje nepoužívat~~ (to je asi příliš silné tvrzení, lepší napsat "zaznívá názor nepoužívat") Hot spare disk, ale zařadit ho do pole, smrt jednoho z disků totiž "nevadí" a ostatně R6 může přijít i o dva disky.
Oproti tomu selhání dvou disků u R10 může vést k rozpadu pole a ztrátě dat, nebo taky ne, podle toho, kde disky pojdou.

Ačkoliv tohle tvrzení zní sebejistě. V praxi, kde o něco jde se propočítá FTA analýza. Jde totiž za prvé o to aby byl zachován požadovaný minimální výkon, který rebuild významně ovlivňuje. Z toho pak plyne doba obnovy, kde pak člověk opravdu riskuje hodně a falešný pocit jistoty (můžou selhat 2 disky) se může rychle rozplynout. Navíc v RAID 10 může selhat i více disků bez ztráty dat v závislosti kolik dvojic je spojených. Pravda je, že nesmí selhat 2 disky ve dvojici. Vzhledem tomu, že doba obnovy u RAID 10 je rychlejší než u RAID 6, může být riziko s Hot Spare i významně nižší. V současné době u vyšších kapacit a většího počtu disků je vhodné použít virtual RAID.
Jinak základy pro pochopení ze zdroje relevantního: https://www.snia.org/sites/default/orig/sdc_archives/2010_presentations/tuesday/JasonResch_%20Solving-Data-Loss.pdf

M Z · « **Odpověď #19 kdy:** 21. 01. 2021, 21:47:51 »

Z vlastni zkusenosti:
predtim - 48x 600GB SAS 15k HW raid10 (IBM), spojeni se serverem 16Gb FC SAN
potom - 2x 4TB Samsung NVMe PM983 swraid 1
Zadna presna mereni nemam, jen iowait. Predtim disky dost nestihaly, bezne byl iowait v top kolem 30, potom max. 10 bezne kolem 5.
Na serverove ssd jsem prestal verit, pote co jsem si jedno z diskoveho pole pripojil do PC a zjistil, ze je to uplne normalni Samsung, ktery se da koupit 5x levneji (a to jsme meli 70% slevu

). Bezpecnost dat, to je otazka, je nutne mit UPS a dobrou zalohu. SSD na rozdil od disku neodchazeji nahle, takze byva dost casu na vymenu.

p.s. pro stourali: tech 48x600GB ma mnohem vetsi kapacitu, ale postupne, jak jsme prechazeli na SSD, na nem zbyl pripojeny pouze jeden server.

Reklama

Exceptions · « **Odpověď #20 kdy:** 21. 01. 2021, 23:08:32 »

kolik tam bylo cpu jader? Těch 48 cpu při plném zatížení se nejspíš dost nepěkně pralo s plánovačem v Linuxu a dělalo to neplechu, to mohlo způsobit tak vysoký iowait a disky vytížené nebyly. Tyhle diskové pole mají mezi sebou obrovské rozdíly. Pro mě to jsou blackboxy a zkušenosti mám jen s klasickými 2U s 16 - 20 disky.

Samozřejmě, pokud tam zajistíš UPS, uděláš zálohování, proč ne. On ten čip uvnitř může být stejný, proč by ne, ale může být jiný firmware, jiný způsob chlazení a napájení atd. U enterprise ssd se začaly TLC objevovat teprve nedávno a mixed use jsou snad jen na MLC.

On to je podobný problém jako používat konzumní plotnové disky do serverů, občas to dává smysl a lze to použít, pak do 4U skříně nacpeš několik desítek disků s NCQ a parkováním hlaviček, navzájem si udělají takové vibrace a kolísání proudu, že v nejlepším budou odpadávat, v nejhorším zapíší poškozená data. To jsem zažil. Když víš co jak, můžeš ušetřit, když nevíš a chceš jen ušetřit, můžeš se ošklivě spálit.

PanVP · « **Odpověď #21 kdy:** 22. 01. 2021, 07:37:23 »

Citace: AoK 21. 01. 2021, 23:08:32

On to je podobný problém jako používat konzumní plotnové disky do serverů, občas to dává smysl a lze to použít, pak do 4U skříně nacpeš několik desítek disků s NCQ a parkováním hlaviček, navzájem si udělají takové vibrace a kolísání proudu, že v nejlepším budou odpadávat, v nejhorším zapíší poškozená data. To jsem zažil. Když víš co jak, můžeš ušetřit, když nevíš a chceš jen ušetřit, můžeš se ošklivě spálit.

Přesně!

Disk do PC neřeší vibrace ostatních disků
Na discích do PC výrobce experimentuje, zkouší si koncepty, které pak nasadí do serverů
Disk do PC se snaží nečitelné místo číst znovu a znovu, což dokáže dostat pole do nestabilního stavu
SAS používá dva kanály, pokud jeden odpadne, jede se dál
Disky do serveru jsou lépe chráněné ECC (cache, ale i další části)
Disky do serveru mívají vyšší výkon elektroniky, například 2x ARM cpu vs 1x ARM
Disky do serveru mívají významně vyšší MTBF
Disky do PC jsou stavěné na 5*7 hodin zátěže 15%, serverové na 24/7 resp. podle typu

Atd, atd...

M Z · « **Odpověď #22 kdy:** 22. 01. 2021, 08:05:53 »

Citace: AoK 21. 01. 2021, 23:08:32

kolik tam bylo cpu jader? Těch 48 cpu při plném zatížení se nejspíš dost nepěkně pralo s plánovačem v Linuxu a dělalo to neplechu, to mohlo způsobit tak vysoký iowait a disky vytížené nebyly. Tyhle diskové pole mají mezi sebou obrovské rozdíly. Pro mě to jsou blackboxy a zkušenosti mám jen s klasickými 2U s 16 - 20 disky.

Tech 48 disku nebylo v swraid, ale v IBM Storwize V7000. Server to mel pridelene jako jednu LUN.

Citace: PanVP 22. 01. 2021, 07:37:23

Citace: AoK 21. 01. 2021, 23:08:32

Přesně!
Disk do PC neřeší vibrace ostatních disků
Na discích do PC výrobce experimentuje, zkouší si koncepty, které pak nasadí do serverů
Disk do PC se snaží nečitelné místo číst znovu a znovu, což dokáže dostat pole do nestabilního stavu
SAS používá dva kanály, pokud jeden odpadne, jede se dál
Disky do serveru jsou lépe chráněné ECC (cache, ale i další části)
Disky do serveru mívají vyšší výkon elektroniky, například 2x ARM cpu vs 1x ARM
Disky do serveru mívají významně vyšší MTBF
Disky do PC jsou stavěné na 5*7 hodin zátěže 15%, serverové na 24/7 resp. podle typu

Atd, atd...

Hmm, co z toho plati pro SSD/NVME disky? Rozdil mezi kvalitnim NVME (Samsung EVO, Micron atd.) a tim co pro servery prodava Intel/HP bude mozna tak v upravenem firmware.

Pokud by to nekoho zajimalo, mohl bych na obou raidech pustit nejaky test.

jeyare · « **Odpověď #23 kdy:** 22. 01. 2021, 08:54:05 »

treba tierovat data a zistite, ze dokazete prevadzkovat v pohode data na rozdielnych diskoch.
nie kazdy system potrebuje to iste nastavenie na strane storage a nie kazda firma potrebuje len SAN.
Preto existuje papier a tuzka a zdravy rozum na rozsegmentovanie potrieb. Co sa casto nerobi, lebo nie je cas. Co je hlupost. Pretoze, cas sa da vytvorit vzdy. Avsak, je tompraca navyse.

Mnohokrat sa stretavam s tym, ze SAP R/3 s Oracle na Exadate slape horsie ako keby ste tam dali slapacie kolo a zapis na dierovaci stitok.

A k tej popisanej teorii o rozdiele medzi server/desktop diskami. Pekna teoria.
V praxi ficim na pomixovanych poliach s tierovanymi diskami a bez problemov su data kde strcim aj tie Barracudy. Ide to, slape to. Priebezne to vymienam a ziskavam tak rozdielny lifespan medzi diskami, cim sa znizuje riziko vypadku v jednom okamihu. Za poslednych 20 rokov som nic take nezazil. Stastie? Mozno. A mozno prave dobra taktika.
Su tiery kde mi frcia Exosy a su tiery, kde su len SSD. Ale to sa neda spisat generalne. Kazde ma svoje .

PanVP · « **Odpověď #24 kdy:** 22. 01. 2021, 11:53:10 »

Citace: M Z 22. 01. 2021, 08:05:53

Hmm, co z toho plati pro SSD/NVME disky? Rozdil mezi kvalitnim NVME (Samsung EVO, Micron atd.) a tim co pro servery prodava Intel/HP bude mozna tak v upravenem firmware.

U NVMe disků:
- spotřební disky se vyrábí procesem hustší integrace (menší buňky) = menší buňka = nižší spolehlivost, byť jsou oba procesy TLC
- čipy pro spotřební disky se často vyrábí u "horších firem", na serverové se dávala třeba vyšší řada čipů Toshiba
(Každý výrobce má různé a různě kvalitní řady.)
- spotřební disky mají menší počet "rezervovaného místa"
- spotřební disky potřebují TRIM, firmware serverových disků se s tím umí "částečně" poprat (ostatně, jinak by chcíply)
- serverové disky mají lepší firmware (stabilnější)
... takže, něco tam je no...

jirkazufanek · « **Odpověď #25 kdy:** 22. 01. 2021, 12:56:24 »

Citace: PanVP 22. 01. 2021, 07:37:23

Disky do PC jsou stavěné na 5*7 hodin zátěže 15%, serverové na 24/7 resp. podle typu

Zdroj?

RDa · « **Odpověď #26 kdy:** 22. 01. 2021, 13:24:12 »

Citace: PanVP 22. 01. 2021, 07:37:23

Přesně!
SAS používá dva kanály, pokud jeden odpadne, jede se dál
Disky do serveru mívají vyšší výkon elektroniky, například 2x ARM cpu vs 1x ARM

Tak to te vyvedu z omylu:

Serverove SATA disky (entry level), stavi na stejnem hw jako desktopove, jen maji osazeny ty senzory vibraci. Pocet jader v radici je tam stejny. Pokud chcete neco "jineho/lepsiho", jde se na SAS a pak to uz je jina platforma. Ale obecne na rotacne disky nepotrebujete buhvijaky vykon, u SSD to uz je jina.

SAS muzou mit 2 kanaly, ale typicke nasazeni je, ze se to pripoji do 2 serveru, pokud jsou disky v "disk shelf", ktery pak ma vzadu dva nezavisle SAS porty, pripadne po konverzi na dva FC. V beznem nasazeni, jako "interni disky pro server", jsou disky pripojeny na 1 radic, ktery vyuziva jen 1 ze dvou portu. Pro multi-path je treba specialni konfigurace - napr. mit dva HBA (protoze radic je SPOF), prislusny backplane, dva kabely a pak pouzit dm+multipath. Tohle opravdu neni bezny standard.

U NVMe existuje taky dual-port verze, jen pak disk nema x4 pcie, ale x2+x2, coz pak pada na uroven cca 2x 12G SAS (ostatne moderni hw radice zerou jak x2 nvme, tak 12G sas). Vyhodou NVMe je, ze muzete delat namespacy a prirazovat je jednotlivym portum, takze takovej DP NVME disk lze rozdelit na dve oblasti ktere jsou exkluzivni pro dva pripojene pocitace, nebo jsou sdilene mezi dvouma pocitaci (to pak je potreba spravny cluster FS nebo failover).

Citace: PanVP 22. 01. 2021, 11:53:10

U NVMe disků:
- spotřební disky se vyrábí procesem hustší integrace (menší buňky) = menší buňka = nižší spolehlivost, byť jsou oba procesy TLC
- čipy pro spotřební disky se často vyrábí u "horších firem", na serverové se dávala třeba vyšší řada čipů Toshiba
(Každý výrobce má různé a různě kvalitní řady.)
- spotřební disky mají menší počet "rezervovaného místa"
- spotřební disky potřebují TRIM, firmware serverových disků se s tím umí "částečně" poprat (ostatně, jinak by chcíply)
- serverové disky mají lepší firmware (stabilnější)
... takže, něco tam je no...

Na velikost bunek se od dob V-NAND prilis nehraje, resp. se zivotnost vratila do normalnejsich mezi.
Ostatni body ti lehce vyvratim, pac v me sbirce pokazenych ssd jsou:

- consumer ssd s intel/micro/toshiba/samsung flashema, nic "china lowend" tam nebylo

- serverove disky, kde s selhani prislo z duvodu chyby FW: pamatujete na HP s zivotnosti 32K hodin? dostal jsem darem dva, pripadne DC4500 series od intelu, kde jsem udelal Trim, a po vytvoreni partition table disk padl do stavu, kdy odmita komunikovat (interni chyba struktur, je tam assertion a nejde ani updatovat na nem fw).

- pokud se bavime o extra volnem mistu: vetsinou je tam stejne jako na consumer variante, s malymi vyjimkami u opravdu drahych disku ktere jsou oznaceny jako WI - write intensive. Tam jsem videl i 1.5x vetsi kapacitu flashe (3.2G osazeno pro 1.9T). A ano.. i takovy disk selze, jinak bych ho nemel na kuchnuti :)

Jedina dobra cesta k spolehlivosti je, ze budete uvazovat o tom, ze disky jsou ze sve podstaty nespolehlive medium - a ac se zda, ze maji svoje patterny jak se chovaj, pri opravdove zatezi muzete narazit na nejakou spousteci podminku chyby ve fw a pak jdou vsechny zname predpoklady bokem. Cesta k vykonu je pak otazkou vytvoreni replikovatelneho testu s predpokladanym patternem - ktere si muzete zkusit na variantach reseni ktere by jste chtel nasadit.

(PS. porad si myslim, ze muj open-ssd projekt ma smysl.. protoze vsechna SSD jsou blackboxy - a nikdy nevite, kde se kostlivec ve skrini skryva)

PanVP · « **Odpověď #27 kdy:** 22. 01. 2021, 13:37:48 »

@Daniel

Se někdy stav, teď jsem v Praze, můžeme na to mrknout.

VéPé

Citace: RDa 22. 01. 2021, 13:24:12

Jistě, u některých disků jsou rozdíly nula.

mfrd · « **Odpověď #28 kdy:** 22. 01. 2021, 14:33:44 »

V případě SSD, bych jen upozornil, že výrobce garantuje uchování dat v případě vypnutého stavu jen po omezenou dobu. Nedávno jsem to někde hledal, bylo to 3 měsíce papírově. (Realita bude delší)

jeyare · « **Odpověď #29 kdy:** 22. 01. 2021, 18:50:23 »

quote author=PanVP link=topic=24174.msg343630#msg343630 date=1611297443]
Přesně!

Disk do PC neřeší vibrace ostatních disků
Na discích do PC výrobce experimentuje, zkouší si koncepty, které pak nasadí do serverů
Disk do PC se snaží nečitelné místo číst znovu a znovu, což dokáže dostat pole do nestabilního stavu
SAS používá dva kanály, pokud jeden odpadne, jede se dál
Disky do serveru jsou lépe chráněné ECC (cache, ale i další části)
Disky do serveru mívají vyšší výkon elektroniky, například 2x ARM cpu vs 1x ARM
Disky do serveru mívají významně vyšší MTBF
Disky do PC jsou stavěné na 5*7 hodin zátěže 15%, serverové na 24/7 resp. podle typu

Atd, atd...
[/quote]

Tak si to rozoberme na drobne:

Na discích do PC výrobce experimentuje, zkouší si koncepty, které pak nasadí do serverů

sa to robi presne naopak. Kazda nova technologia sa tvori prave s ohladom na enterprise a do low end tier sa proste veci nedaju.
tak to bolo presne s SMR diskami, kedze boli najskor HM-SMR az potom DM-SMR. Prtoze problem nebol s HM-SMR ale s DM-SMR ... ktore sa zali objavovat size od 2015, ale preliezli do consumer segment najviac na prelome 2019/2020. Ludia to kupovali a strkali do malych NASov a nerozumeli tomu, ze je to skvela vec na dlhe sekvencne write a obcasne reads = Archive.
Videl si uz HAMR disky v consumers low end segmente?

Disk do PC se snaží nečitelné místo číst znovu a znovu, což dokáže dostat pole do nestabilního stavu

videl si uz niekedy vystup zo smrtctl ?
a hovori ti nieco data scrubbing?

Disky do serveru mívají významně vyšší MTBF

MTFB je udaj dobry pre Sales. Ved sa jedna len o odhad a nie reprezentativny fakt, kolko ti vydrzi disk. Avsak za definovanych prevadzkovych podmienok. A nikto nema laboratorne podmienky. Uz ti niekedy tato statistika vysla?
Ak tomu neveris, tak si precitaj zopar BackBlaze reportov, ktore ti ukazu ako je to so spolahlivostou MTBF.

Disky do PC jsou stavěné na 5*7 hodin zátěže 15%, serverové na 24/7 resp. podle typu

fakt by som rad videl source
vendori uvadzaju Workload Rate Limit v hodinach, resp Annualized Workload Rate
Annualized Workload Rate = (Lifetime Writes + Lifetime Reads) * (8,760 / Lifetime Power On Hours)
ale obmedzenie zataze???

HW raid 10 vs 6

RDa

Re:HW raid 10 vs 6

Reklama

M Z

Re:HW raid 10 vs 6

Exceptions

Re:HW raid 10 vs 6

mfrd

Re:HW raid 10 vs 6

M Z

Re:HW raid 10 vs 6

Reklama

Exceptions

Re:HW raid 10 vs 6

PanVP

Re:HW raid 10 vs 6

M Z

Re:HW raid 10 vs 6

jeyare

Re:HW raid 10 vs 6

PanVP

Re:HW raid 10 vs 6

jirkazufanek

Re:HW raid 10 vs 6

RDa

Re:HW raid 10 vs 6

PanVP

Re:HW raid 10 vs 6

mfrd

Re:HW raid 10 vs 6

jeyare

Re:HW raid 10 vs 6