Fórum Root.cz

Hlavní témata => Server => Téma založeno: PanVP 20. 01. 2021, 18:28:06

Název: HW raid 10 vs 6
Přispěvatel: PanVP 20. 01. 2021, 18:28:06
Ahoj,

mám pole nad 12ti disky v RAID 10.
Údajně to má být kvůli výkonu.

Také jsem četl řadu článků, které kritizují RAID 6.

Pro RAID 6 mluví hlavně:
- vyšší kapacita oproti RAID 10

Proti pak především:
- delší doba rebuildu

Pro RAID 10 mluví:
- vyšší rychlost

Proti pak především:
- významně menší kapacita


Zhruba počítáno přes: http://www.raid-calculator.com/default.aspx
RAID 10
12 disků, 900GB každý, celkem k dispozici 5400 TB
Speed gain 12x read and 6x write speed gain

RAID 6
12 disků, 900GB každý, celkem k dispozici 9000 TB
Speed gain 10x read speed, no write speed gain

Teoreticky by RAID 10 měl skutečně urychlovat všechny operace, ale podle mých měření je to vesměs plichta.

Dopočítal jsem se podobných výsledků jako člověk tady, což je mimochodem velmi zajímavé téma!:
https://forum.root.cz/index.php?topic=3298.msg27483#msg27483

Otázka na vás, jaký typ pole byste použili dospodu pod virtualizaci?
Nad tím poběží virtuály (ale jejich OS bude na SSD poli), ale budou na tom data.

Osobně bych raději nasadil konfiguraci:
12 disků v RAID 6  plus 1x hot spare disk.

Mimochodem, předchůdce s chutí používal 2.5" 15k disky - před třemi lety.
S tím, jak rostou potřeby firmy, by mi přišlo logičtější použít nižší počet 3.5" serverových disků a hybridní pole (s SSD urychlujícím čtení).
Název: Re:HW raid 10 vs 6
Přispěvatel: AoK 20. 01. 2021, 20:01:05
on je rozdíl kdo bude ty paritní bloky počítat, jestli CPU, budeš mít zdržení a nevyužiješ rychlejšího paralelního ukládání u R10. Pokud diskový řadič s cache a baterií, měřit se to bude při většině použití velice složitě a dopad na výkon nemusí být v podstatě žádný.

Ještě bych doporučil se podívat na R50 (s 1 paritními bloky pro každý R5), zůstane ti odhadem 9 TB dat a mohou dva disky umřít.

Všechno bude záležet na kolik iops takový storage budeš cílit, pokud třeba 500, rozdíl nepoznáš, pokud třeba 2000, volil bych odhadem R10. Jaký FS (nějaký COW?) a služby na tom pojedou?
Název: Re:HW raid 10 vs 6
Přispěvatel: RDa 20. 01. 2021, 20:02:33
Mimochodem, předchůdce s chutí používal 2.5" 15k disky - před třemi lety.
S tím, jak rostou potřeby firmy, by mi přišlo logičtější použít nižší počet 3.5" serverových disků a hybridní pole (s SSD urychlujícím čtení).

Vykonu 2.5"/15K budes tezko konkurovat pomalyma velkyma diskama - to IOPS je zde nasobne vyssi a netrpi to na TBW jako SSD.

SSD cteni neurychluje. Urychluje *opakovane* cteni, stejne jako by pomohla vice RAM a je s tim mene prace to "nastavit".

Chybi zakladni informace: co ve VM vlastne bezi, jak to je zatizeny, jaky IO pattern to generuje - cte to vubec neco dokola, aby ta SSD cache se mela sanci projevit? Je soucasne pole vykonem limitujici faktor pro provoz sluzeb? Nebo na kolik % je diskovy system vytizen? Budou to jen lokalni VM, nebo se pole sdili pro vzdalene nody?

Kdyz si spoctes 12 disku x 10w, vyjde ti spotreba cca 1MWh/rok, coz je 4500.-, SSD mas za 2-3 roky usetreno v TCO (ale predpokladam ze mas budget na investici do novych disku). Takze bych sel do SSD only pole, oblast nad 5.4TB pokryjes za par tisic. Rekonstrukce SSD pole (R5) bude rychla, takze bych preferoval R5+spare (kvuli odlozeni wearu na spare disku), nez R6, pokud nehodlas mit v zasobe cold-spare sdilenej pro vice serveru s R6 rezimem.

Ad OS pro VM je na SSD - tak tohle je prave design fail, protoze typicky server OS+APP se nacte jednou a pak uz na systemovej disk to nesaha, leda jako na zapis logu. K tomu SSD fakt nepotrebujes.

Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 20. 01. 2021, 21:07:48
Psal jsem odpověď asi 15 (spíš 40) minut a napsalo mi to "přístup odepřen"...
Tohle fórum je dobrá parodie :-(
Znovu to psát nebudu a Petr Krčmář by tomu mohl věnovat víc péče, aby se rozepsaný post neztratil...
Název: Re:HW raid 10 vs 6
Přispěvatel: jeyare 21. 01. 2021, 01:05:25
podla toho ako je popisane zadanie v uvode kontrolujes architekturu niecoho, comu moc nerozumies a placas to googlom.

je sakra rozdiel, ak sa niekto rozhodne pouzivat RAID10, pretoze to nie je o nakladoch na 1MWh za rok, to je o vykone, ktory RAID6 nikdy neda. A je to o primarnej funkcii RAIDu = redundancia a rozdieloch v nej. Ak sa bavime o urceni RAID10 tak ma sluzit aj k tomu, ze ak ti degraduje jeden disk, tak stratis minimum vykonu pri rebuilde a je sakra rychlejsi ako pri RAID6. Pri RAID10 nepozeram na cenu diskov, pretoze potrebujem vykon vs RAID6. T9 je ako babit sa o tom, ze potrebujes 600HP v aute, ale hladas, kde sa da kupit 90 oktanovy benzin.

A rovnako je urcenie segmentu pre RAID6, ktory ma svoje opodstatnenie. Ako ulozisko pre Virtualky? Leda jak target ore Veeam zalohy.
Ten, kto zalohuje sa nestara o to, ci mu padnu dva disky albo 5. Ma zalohy. Ale to nemoze riesit redundancia.
Název: Re:HW raid 10 vs 6
Přispěvatel: RDa 21. 01. 2021, 01:45:39
Ak sa bavime o urceni RAID10 tak ma sluzit aj k tomu, ze ak ti degraduje jeden disk, tak stratis minimum vykonu pri rebuilde a je sakra rychlejsi ako pri RAID6.

Tady bych souhlasil na 100%.
Vetsina lidi vidi R6 jako "je tam prece vice disku = vetsi vykon, vetsi kapacita".
Ale nikdy nezazili prakticky provoz v degraded stavu, a na R6 to je fakt hodne znat.
Název: Re:HW raid 10 vs 6
Přispěvatel: mfrd 21. 01. 2021, 07:46:43
Tady musím doporučit jednu základní věc. T.j nakreslit či napsat si co se, děje při READ a Write operaci při RAID 6 a RAID 10. Pokud pominu problém fronty požadavků i disků, bude hned zřejmé co k čemu se hodí a v jakých případech. A zároveň je potřeba porozumět tomu co se děje při souběhu různých požadavků.
Pokud je problém v případě rebuild časů (zejména u disků s vysokou kapacitou) je možné použít virtualizovaný raid.

Současná doba je nahlavu v tom, že zákazník chce 100 TB prostoru RAW a vidí cenu 10x 10TB SATA disků na alze. Ale když se dopočítají požadavky na IOPS, tak pak to pole má třeba 12 x 900 GB SAS disků.

Pak samozřejmě, ještě otázka kdy se přesunout na SSD, či jiné techniky. Základ problému je nedívat se na to od konce, protože měřit a nevědět co měřím vždy vede k tomu, že nejsem schopen porozumět výsledkům. Proto naučit se jak funguje RAID co se tam děje krok po kroku a uvědomovat si kdy mi poskytuje výhodu a kdy ne (např. rozložení dat). Proto je vždy rozdíl mezi teoretickou a praktickou hodnotou.
Název: Re:HW raid 10 vs 6
Přispěvatel: jeyare 21. 01. 2021, 07:48:10
stretavam sa s tym casto, ludia davaju debatu o architekture dat od RAIDu
je to ako kupovat auto a dozadovat sa, ze tam maju byt pneumatiky 275x40xR19 s rychlostnym indexom a vahovym indexom ... a to este nepopisali, k comu ma to auto presne sluzit. Nakonec debaty sa pride na to, ze clovek ocakava lesny offroad na obcasne pouzitie, najlepsie za 450Euro.
Název: Re:HW raid 10 vs 6
Přispěvatel: mfrd 21. 01. 2021, 07:55:22

Současná doba je nahlavu v tom, že zákazník chce 100 TB prostoru RAW a vidí cenu 10x 10TB SATA disků na alze. Ale když se dopočítají požadavky na IOPS, tak pak to pole má třeba 12 x 900 GB SAS disků.

Oprava vypadla nula -120x 900 GB
Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 21. 01. 2021, 08:12:25
Předně, nebudu znovu psát delší odpověď, fórum je defektní a poměrně rychle odhlašuje.

comu moc nerozumies a placas to googlom
Nevylévejte si na mně svoje Slovenské mindráky, díky.

dozadovat sa, ze tam maju byt pneumatiky 275x40xR19 s rychlostnym indexom a vahovym indexom
Prosím, zůstaňte u prodeje aut, IT pro vás není.

Vy byste si měl zkusit nějaké pole nasadit a neteoretizovat.
Zjistíte, že na rychlost pole má mnohem větší vliv fragmentace než typ provozu. Je to dáno tím, že operace, která trvá a důvod, proč disky dávají nižší stovky IOPS je ten, že i přes NCQ, plánováné ukládání (data jdou nejprve do cache pak do fronty NCQ) a techniky omezující fragmentaci (třeba zvětšení logických bloků). Také byste věděl, že typ zátěže ve virtualizaci je fakticky smíšený, protože různé virtuály mají různý typ provozu.

Máte pocit, že jsem zlý a píšu to ošklivě? Píšu stejně, jako vy.
Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 21. 01. 2021, 08:26:05
Vetsina lidi vidi R6 jako "je tam prece vice disku = vetsi vykon, vetsi kapacita".
Ale nikdy nezazili prakticky provoz v degraded stavu, a na R6 to je fakt hodne znat.

Jednak, R10 a R6 mohou mít stejný počet členů.
A dále, výkon R6 pole - při selhání jednoho disku - by neměl významně klesnout, resp. jen o tu rychlost selhaného disku. Pokud klesne víc, je něco špatně. Například může docházet k opakovaným čtením z už "načatých" disků.
Nespletl jste si to s R5? Nemám ovšem zkušenosti, jak se to chová na softwarovém rádobyRAIDu.
Něco jiného je Rebuild R6 i R5, pole zotavující se po havárii, tedy při obnově konzistence, je velmi dlouho "skutečně líné". Rebuild pole je kritická chvíle, kdy (často) hrozí selhání dalších disků.
To je paradoxně nebezpečnější u R10 než u R6. Protože na R6 mohou odejít dva disky, proto se u R6 doporučuje nepoužívat (to je asi příliš silné tvrzení, lepší napsat "zaznívá názor nepoužívat") Hot spare disk, ale zařadit ho do pole, smrt jednoho z disků totiž "nevadí" a ostatně R6 může přijít i o dva disky.
Oproti tomu selhání dvou disků u R10 může vést k rozpadu pole a ztrátě dat, nebo taky ne, podle toho, kde disky pojdou.
Název: Re:HW raid 10 vs 6
Přispěvatel: jeyare 21. 01. 2021, 08:44:55
zelam vam pekny den

vyzera to tak, ze odpovede nehladas, mas v tom jasno a si rozhodnuty, len potrebujes pochvalit. To vsak musis tam, kde ti davaju salary.

btw: ak vies, ze forum rychle odhlasuje, tak odpoved mozes napisat v Note a presunt cez clipboard. Odpoved hladas ty, ne forum log-off timer. Aspon budes mat sancu pouvazovat nad tym co pises. Obcas sa ta tuzka da pouzit i na nakres As-Is a To-Be. Spomaluje to v rozhodovani? Ano. Ale zabranuje to uvazovaniu typu shoot into dark.

Mozes sa stazovat, alebo byt flexibilny a pochopit, ako vyuzit nevyhodu vo svoj prospech.
Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 21. 01. 2021, 09:57:30
vyzera to tak, ze odpovede nehladas, mas v tom jasno a si rozhodnuty, len potrebujes pochvalit.

Ano, jsem rozhodnutý pro R6, protože to považuji za lepší řešení.
Ne dokonalé, ale lepší.
Dokud někde nepřijde s argumentem "To je blbost, protože...", takový argument tu zatím nepadl.

RDa přišel s myšlenkou, že pro mě bude jednodušší, než bádat nad hybrid RAID, přidat Ramku.
To je něco, co mě posunulo dopředu.

RDa dále zmínil názory, které sice nesdílím (asi používá jiné prostředí), ale které jsem pečlivě promyslel a utvrdil se v tom, že navržené řešení je dobré. To je ten post, který se smazal (což mě nakrklo).

Název: Re:HW raid 10 vs 6
Přispěvatel: farbydos2 21. 01. 2021, 12:55:53
Někdy se může jevit jako zajímavá varianta nestandardní raid: https://en.wikipedia.org/wiki/Non-standard_RAID_levels. Třeba pro vás může být zajímavý raid 6e. Jak byste raid implementoval? Jako softwarový nebo máte dedikovaný řadič s raidem? A jak se zhruba jeví zátěž jednotlivých VM pro diskové pole?
Název: Re:HW raid 10 vs 6
Přispěvatel: Jose D 21. 01. 2021, 13:09:22
zajímavý raid 6e

Pole s distribuovaným hotspare jsem svého času provozoval, bylo to součástí komerčního řešení o kterém si nejsem vědom, že by bylo ještě k dispozici. Máte tedy na mysli raidz2 ?
Název: Re:HW raid 10 vs 6
Přispěvatel: RDa 21. 01. 2021, 18:25:19
Někdy se může jevit jako zajímavá varianta nestandardní raid: https://en.wikipedia.org/wiki/Non-standard_RAID_levels. Třeba pro vás může být zajímavý raid 6e. Jak byste raid implementoval? Jako softwarový nebo máte dedikovaný řadič s raidem? A jak se zhruba jeví zátěž jednotlivých VM pro diskové pole?

Raid5E/6E nebrat, protoze vyhozeni disku spousti proces ktery prekope cely pole do jineho poctu disku a useekuje se to k smrti.
Raid5EE/6EE je jiz zajimavejsi, ze to jsou data prolnuta prazdnym mistem a odpada velikej disk seek.

Jakkoliv, klasicky raid 5/6 s hotspare dela zatez (N-1)*R+1*W pri rebuildu, zatimco tyhle E/EE vymysly az N*R+N*W, takze vykonove si prilis nepomuzete :-)
Název: Re:HW raid 10 vs 6
Přispěvatel: M Z 21. 01. 2021, 20:32:53
No po pravde bych dnes pro takhle malou kapacitu tocici disky vubec neuvazoval. Pokud tam nebudou nejake extremni zapisy, dal bych tam, dva 7TB nvme (napr. Samsung PM983) v raid1 a hotovo. S 1.3 DWPD na 5 let by to nemusel byt zadny problem.
Název: Re:HW raid 10 vs 6
Přispěvatel: AoK 21. 01. 2021, 21:07:47
No po pravde bych dnes pro takhle malou kapacitu tocici disky vubec neuvazoval. Pokud tam nebudou nejake extremni zapisy, dal bych tam, dva 7TB nvme (napr. Samsung PM983) v raid1 a hotovo. S 1.3 DWPD na 5 let by to nemusel byt zadny problem.

v takovém případě můžeš použít jen SW raid (ty HW v běžných serverech nemají podporuje pcie a nvme). SW raid pro tyhle rychlé disky je dost úzké hrdlo a nesplní to očekávání (odzkoušeno), výrazně klesnou iops při paralelním přístup z více procesů a riziko rozbití FS při ztrátě napájení je obrovské, běžně raid děláš i kvůli záloze dat a spolehlivosti a nikoliv jen kvůli rychlosti.

Každopádně využít ssd v raid může být dobrá cesta, jen cena je astronomická, takový dva HPE 6.4TB SAS (MU) v serveru výjdou na 300k (pokud mám dobrou slevu). To asi není dobrý směr. Kupovat konzumní na satě s tlc/qlc technologií se také může vymstít, zejména, když jsou data cennější než ty disky.

Po těch spoustě rozbitých FS při problémech s napájením bych do SW raid už nešel, je to strašně moc práce v době, kdy to člověk nechce řešit. Buď HW raid s baterii (i z bazaru stojí pár korun) nebo nějaký distribuovaný FS, což je mimochodem věc, kterou poslední dobou u projetků ty drahá disková pole nahrazujeme.
Název: Re:HW raid 10 vs 6
Přispěvatel: mfrd 21. 01. 2021, 21:34:06
Vetsina lidi vidi R6 jako "je tam prece vice disku = vetsi vykon, vetsi kapacita".
Ale nikdy nezazili prakticky provoz v degraded stavu, a na R6 to je fakt hodne znat.
Rebuild pole je kritická chvíle, kdy (často) hrozí selhání dalších disků.
To je paradoxně nebezpečnější u R10 než u R6. Protože na R6 mohou odejít dva disky, proto se u R6 doporučuje nepoužívat (to je asi příliš silné tvrzení, lepší napsat "zaznívá názor nepoužívat") Hot spare disk, ale zařadit ho do pole, smrt jednoho z disků totiž "nevadí" a ostatně R6 může přijít i o dva disky.
Oproti tomu selhání dvou disků u R10 může vést k rozpadu pole a ztrátě dat, nebo taky ne, podle toho, kde disky pojdou.
Ačkoliv tohle tvrzení zní sebejistě. V praxi, kde o něco jde se propočítá FTA analýza. Jde totiž za prvé o to aby byl zachován požadovaný minimální výkon, který rebuild významně ovlivňuje. Z toho pak plyne doba obnovy, kde pak člověk opravdu riskuje hodně a falešný pocit jistoty (můžou selhat 2 disky) se může rychle rozplynout. Navíc v RAID 10 může selhat i více disků bez ztráty dat v závislosti kolik dvojic je spojených. Pravda je, že nesmí selhat 2 disky ve dvojici. Vzhledem  tomu, že doba obnovy u RAID 10 je rychlejší než u RAID 6, může být riziko s Hot Spare i významně nižší. V současné době u vyšších kapacit a většího počtu disků je vhodné použít virtual RAID.
Jinak základy pro pochopení ze zdroje relevantního: https://www.snia.org/sites/default/orig/sdc_archives/2010_presentations/tuesday/JasonResch_%20Solving-Data-Loss.pdf
Název: Re:HW raid 10 vs 6
Přispěvatel: M Z 21. 01. 2021, 21:47:51
Z vlastni zkusenosti:
predtim - 48x 600GB SAS 15k HW raid10 (IBM), spojeni se serverem 16Gb FC SAN
potom - 2x 4TB Samsung NVMe PM983 swraid 1
Zadna presna mereni nemam, jen iowait. Predtim disky dost nestihaly, bezne byl iowait v top kolem 30, potom max. 10 bezne kolem 5.
Na serverove  ssd jsem prestal verit, pote co jsem si jedno z diskoveho pole pripojil do PC a zjistil, ze je to uplne normalni Samsung, ktery se da koupit 5x levneji (a to jsme meli 70% slevu  ;) ). Bezpecnost dat, to je otazka, je nutne mit UPS a dobrou zalohu. SSD na rozdil od disku neodchazeji nahle, takze byva dost casu na vymenu.

p.s. pro stourali: tech 48x600GB ma mnohem vetsi kapacitu, ale postupne, jak jsme prechazeli na SSD, na nem zbyl pripojeny pouze jeden server.
Název: Re:HW raid 10 vs 6
Přispěvatel: AoK 21. 01. 2021, 23:08:32
kolik tam bylo cpu jader? Těch 48 cpu při plném zatížení se nejspíš dost nepěkně pralo s plánovačem v Linuxu a dělalo to neplechu, to mohlo způsobit tak vysoký iowait a disky vytížené nebyly. Tyhle diskové pole mají mezi sebou obrovské rozdíly. Pro mě to jsou blackboxy a zkušenosti mám jen s klasickými 2U s 16 - 20 disky.

Samozřejmě, pokud tam zajistíš UPS, uděláš zálohování, proč ne. On ten čip uvnitř může být stejný, proč by ne, ale může být jiný firmware, jiný způsob chlazení a napájení atd. U enterprise ssd se začaly TLC objevovat teprve nedávno a mixed use jsou snad jen na MLC.

On to je podobný problém jako používat konzumní plotnové disky do serverů, občas to dává smysl a lze to použít, pak do 4U skříně nacpeš několik desítek disků s NCQ a parkováním hlaviček, navzájem si udělají takové vibrace a kolísání proudu, že v nejlepším budou odpadávat, v nejhorším zapíší poškozená data. To jsem zažil. Když víš co jak, můžeš ušetřit, když nevíš a chceš jen ušetřit, můžeš se ošklivě spálit.
Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 22. 01. 2021, 07:37:23
On to je podobný problém jako používat konzumní plotnové disky do serverů, občas to dává smysl a lze to použít, pak do 4U skříně nacpeš několik desítek disků s NCQ a parkováním hlaviček, navzájem si udělají takové vibrace a kolísání proudu, že v nejlepším budou odpadávat, v nejhorším zapíší poškozená data. To jsem zažil. Když víš co jak, můžeš ušetřit, když nevíš a chceš jen ušetřit, můžeš se ošklivě spálit.

Přesně!

Atd, atd...
Název: Re:HW raid 10 vs 6
Přispěvatel: M Z 22. 01. 2021, 08:05:53
kolik tam bylo cpu jader? Těch 48 cpu při plném zatížení se nejspíš dost nepěkně pralo s plánovačem v Linuxu a dělalo to neplechu, to mohlo způsobit tak vysoký iowait a disky vytížené nebyly. Tyhle diskové pole mají mezi sebou obrovské rozdíly. Pro mě to jsou blackboxy a zkušenosti mám jen s klasickými 2U s 16 - 20 disky.
Tech 48 disku nebylo v swraid, ale v IBM Storwize V7000. Server to mel pridelene jako jednu LUN.


Přesně!
  • Disk do PC neřeší vibrace ostatních disků
  • Na discích do PC výrobce experimentuje, zkouší si koncepty, které pak nasadí do serverů
  • Disk do PC se snaží nečitelné místo číst znovu a znovu, což dokáže dostat pole do nestabilního stavu
  • SAS používá dva kanály, pokud jeden odpadne, jede se dál
  • Disky do serveru jsou lépe chráněné ECC (cache, ale i další části)
  • Disky do serveru mívají vyšší výkon elektroniky, například 2x ARM cpu vs 1x ARM
  • Disky do serveru mívají významně vyšší MTBF
  • Disky do PC jsou stavěné na 5*7 hodin zátěže 15%, serverové na 24/7 resp. podle typu

Atd, atd...

Hmm, co z toho plati pro SSD/NVME disky? Rozdil mezi kvalitnim NVME (Samsung EVO, Micron atd.) a tim co pro servery prodava Intel/HP bude mozna tak v upravenem firmware.

Pokud by to nekoho zajimalo, mohl bych na obou raidech pustit nejaky test.
Název: Re:HW raid 10 vs 6
Přispěvatel: jeyare 22. 01. 2021, 08:54:05
treba tierovat data a zistite, ze dokazete prevadzkovat v pohode data na rozdielnych diskoch.
nie kazdy system potrebuje to iste nastavenie na strane storage a nie kazda firma potrebuje len SAN.
Preto existuje papier a tuzka a zdravy rozum na rozsegmentovanie potrieb. Co sa casto nerobi, lebo nie je cas. Co je hlupost. Pretoze, cas sa da vytvorit vzdy. Avsak, je tompraca navyse.

Mnohokrat sa stretavam s tym, ze SAP R/3 s Oracle na Exadate slape horsie ako keby ste tam dali slapacie kolo a zapis na dierovaci stitok.

A k tej popisanej teorii o rozdiele medzi server/desktop diskami. Pekna teoria.
V praxi ficim na pomixovanych poliach s tierovanymi diskami a bez problemov su data kde strcim aj tie Barracudy. Ide to, slape to. Priebezne to vymienam a ziskavam tak rozdielny lifespan medzi diskami, cim sa znizuje riziko vypadku v jednom okamihu. Za poslednych 20 rokov som nic take nezazil. Stastie? Mozno. A mozno prave dobra taktika.
Su tiery kde mi frcia Exosy a su tiery, kde su len SSD. Ale to sa neda spisat generalne. Kazde ma svoje .
Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 22. 01. 2021, 11:53:10
Hmm, co z toho plati pro SSD/NVME disky? Rozdil mezi kvalitnim NVME (Samsung EVO, Micron atd.) a tim co pro servery prodava Intel/HP bude mozna tak v upravenem firmware.

U NVMe disků:
- spotřební disky se vyrábí procesem hustší integrace (menší buňky) = menší buňka = nižší spolehlivost, byť jsou oba procesy TLC
- čipy pro spotřební disky se často vyrábí u "horších firem", na serverové se dávala třeba vyšší řada čipů Toshiba
(Každý výrobce má různé a různě kvalitní řady.)
- spotřební disky mají menší počet "rezervovaného místa"
- spotřební disky potřebují TRIM, firmware serverových disků se s tím umí "částečně" poprat (ostatně, jinak by chcíply)
- serverové disky mají lepší firmware (stabilnější)
... takže, něco tam je no...
Název: Re:HW raid 10 vs 6
Přispěvatel: jirkazufanek 22. 01. 2021, 12:56:24
  • Disky do PC jsou stavěné na 5*7 hodin zátěže 15%, serverové na 24/7 resp. podle typu

Zdroj?
Název: Re:HW raid 10 vs 6
Přispěvatel: RDa 22. 01. 2021, 13:24:12
Přesně!
  • SAS používá dva kanály, pokud jeden odpadne, jede se dál
  • Disky do serveru mívají vyšší výkon elektroniky, například 2x ARM cpu vs 1x ARM

Tak to te vyvedu z omylu:

Serverove SATA disky (entry level), stavi na stejnem hw jako desktopove, jen maji osazeny ty senzory vibraci. Pocet jader v radici je tam stejny. Pokud chcete neco "jineho/lepsiho", jde se na SAS a pak to uz je jina platforma. Ale obecne na rotacne disky nepotrebujete buhvijaky vykon, u SSD to uz je jina.

SAS muzou mit 2 kanaly, ale typicke nasazeni je, ze se to pripoji do 2 serveru, pokud jsou disky v "disk shelf", ktery pak ma vzadu dva nezavisle SAS porty, pripadne po konverzi na dva FC. V beznem nasazeni, jako "interni disky pro server", jsou disky pripojeny na 1 radic, ktery vyuziva jen 1 ze dvou portu. Pro multi-path je treba specialni konfigurace - napr. mit dva HBA (protoze radic je SPOF), prislusny backplane, dva kabely a pak pouzit dm+multipath. Tohle opravdu neni bezny standard.

U NVMe existuje taky dual-port verze, jen pak disk nema x4 pcie, ale x2+x2, coz pak pada na uroven cca 2x 12G SAS (ostatne moderni hw radice zerou jak x2 nvme, tak 12G sas). Vyhodou NVMe je, ze muzete delat namespacy a prirazovat je jednotlivym portum, takze takovej DP NVME disk lze rozdelit na dve oblasti ktere jsou exkluzivni pro dva pripojene pocitace, nebo jsou sdilene mezi dvouma pocitaci (to pak je potreba spravny cluster FS nebo failover).

U NVMe disků:
- spotřební disky se vyrábí procesem hustší integrace (menší buňky) = menší buňka = nižší spolehlivost, byť jsou oba procesy TLC
- čipy pro spotřební disky se často vyrábí u "horších firem", na serverové se dávala třeba vyšší řada čipů Toshiba
(Každý výrobce má různé a různě kvalitní řady.)
- spotřební disky mají menší počet "rezervovaného místa"
- spotřební disky potřebují TRIM, firmware serverových disků se s tím umí "částečně" poprat (ostatně, jinak by chcíply)
- serverové disky mají lepší firmware (stabilnější)
... takže, něco tam je no...

Na velikost bunek se od dob V-NAND prilis nehraje, resp. se zivotnost vratila do normalnejsich mezi.
Ostatni body ti lehce vyvratim, pac v me sbirce pokazenych ssd jsou:

 - consumer ssd s intel/micro/toshiba/samsung flashema, nic "china lowend" tam nebylo

 - serverove disky, kde s selhani prislo z duvodu chyby FW: pamatujete na HP s zivotnosti 32K hodin? dostal jsem darem dva, pripadne DC4500 series od intelu, kde jsem udelal Trim, a po vytvoreni partition table disk padl do stavu, kdy odmita komunikovat (interni chyba struktur, je tam assertion a nejde ani updatovat na nem fw).

 - pokud se bavime o extra volnem mistu: vetsinou je tam stejne jako na consumer variante, s malymi vyjimkami u opravdu drahych disku ktere jsou oznaceny jako WI - write intensive. Tam jsem videl i 1.5x vetsi kapacitu flashe (3.2G osazeno pro 1.9T). A ano.. i takovy disk selze, jinak bych ho nemel na kuchnuti :)


Jedina dobra cesta k spolehlivosti je, ze budete uvazovat o tom, ze disky jsou ze sve podstaty nespolehlive medium - a ac se zda, ze maji svoje patterny jak se chovaj, pri opravdove zatezi muzete narazit na nejakou spousteci podminku chyby ve fw a pak jdou vsechny zname predpoklady bokem. Cesta k vykonu je pak otazkou vytvoreni replikovatelneho testu s predpokladanym patternem - ktere si muzete zkusit na variantach reseni ktere by jste chtel nasadit.

(PS. porad si myslim, ze muj open-ssd projekt ma smysl.. protoze vsechna SSD jsou blackboxy - a nikdy nevite, kde se kostlivec ve skrini skryva)
Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 22. 01. 2021, 13:37:48
@Daniel

Se někdy stav, teď jsem v Praze, můžeme na to mrknout.

VéPé


Jistě, u některých disků jsou rozdíly nula.
Název: Re:HW raid 10 vs 6
Přispěvatel: mfrd 22. 01. 2021, 14:33:44
V případě SSD, bych jen upozornil, že výrobce garantuje uchování dat v případě vypnutého stavu jen po omezenou dobu. Nedávno jsem  to někde hledal, bylo to 3 měsíce papírově. (Realita bude delší)
Název: Re:HW raid 10 vs 6
Přispěvatel: jeyare 22. 01. 2021, 18:50:23
quote author=PanVP link=topic=24174.msg343630#msg343630 date=1611297443]
Přesně!

Atd, atd...
[/quote]

Tak si to rozoberme na drobne:
sa to robi presne naopak. Kazda nova technologia sa tvori prave s ohladom na enterprise a do low end tier sa proste veci nedaju.
tak to bolo presne s SMR diskami, kedze boli najskor HM-SMR az potom DM-SMR. Prtoze problem nebol s HM-SMR ale s DM-SMR ... ktore sa zali objavovat size od 2015, ale preliezli do consumer segment najviac na prelome 2019/2020. Ludia to kupovali a strkali do malych NASov a nerozumeli tomu, ze je to skvela vec na dlhe sekvencne write a obcasne reads = Archive.
Videl si uz HAMR disky v consumers low end segmente?

videl si uz niekedy vystup zo smrtctl ?
a hovori ti nieco data scrubbing?

MTFB je udaj dobry pre Sales. Ved sa jedna len o odhad a nie reprezentativny fakt, kolko ti vydrzi disk. Avsak za definovanych prevadzkovych podmienok. A nikto nema laboratorne podmienky. Uz ti niekedy tato statistika vysla?
Ak tomu neveris, tak si precitaj zopar BackBlaze reportov, ktore ti ukazu ako je to so spolahlivostou MTBF.


fakt by som rad videl source
vendori uvadzaju Workload Rate Limit v hodinach, resp Annualized Workload Rate
Annualized Workload Rate = (Lifetime Writes + Lifetime Reads) * (8,760 / Lifetime Power On Hours)
ale obmedzenie zataze???
Název: Re:HW raid 10 vs 6
Přispěvatel: mfrd 22. 01. 2021, 19:04:33
MTBF není jen marketingový údaj v rámci FTA a vícenásobných systémů společně s MTTR opravdu ovlivňuje design.

Jinak ačkoliv se technologie hodně posunula spoustě lidí tady chybí úplné základy. Doporučuji si projít tento odkaz
https://www.snia.org/sites/default/education/tutorials/2008/spring/storage/Whittington-W_Desktop_Nearline_Enterprise_HDDS.pdf
Zde je vysvětleno proč Enterprise má význam, co se děje v SAS , V SATA přenosu jaká je chybovost a celkový dopad.

Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 22. 01. 2021, 20:02:26
https://www.snia.org/sites/default/education/tutorials/2008/spring/storage/Whittington-W_Desktop_Nearline_Enterprise_HDDS.pdf

Přesně tenhle dokument jsem hledal!
Ale ...těm pomalejším...to jeden nevysvětlí.
Název: Re:HW raid 10 vs 6
Přispěvatel: Trident Vasco 23. 01. 2021, 10:11:56
MTBF není jen marketingový údaj v rámci FTA a vícenásobných systémů společně s MTTR opravdu ovlivňuje design.

Jinak ačkoliv se technologie hodně posunula spoustě lidí tady chybí úplné základy. Doporučuji si projít tento odkaz
https://www.snia.org/sites/default/education/tutorials/2008/spring/storage/Whittington-W_Desktop_Nearline_Enterprise_HDDS.pdf
Zde je vysvětleno proč Enterprise má význam, co se děje v SAS , V SATA přenosu jaká je chybovost a celkový dopad.
Jedine co muzu potvrdit je zasadni rozdil v rozhrani. Ten tu byl, je a jeste nejakou dobu bude. Vcetne moznosti ktere SCSI nabizi a to je prima manipulace s tabulkami chyb. To v podstate SATA neumi, muzete si jen precist nejaky obecne country a logy pres smart, na primou manipulaci standardy na to nejsou a je to mozne jen pres diagnosticke rozhrani.
Zpusob zaznamu  a ani detail zavady vam vendor neprozradi jako kdysi. Kdyz je svolavani vice disku z poli maximalne to chce poslat zpatky do labu s popisem zavad. Zpatky prijde rozkaz na recall nebo novy firmware specialne pro vas jako firmu vyrabejici SAN/NAS reseni.

 Bohuzel spousta toho davno z clanku jiz neni pravda. Ano plotny se porad tridi na consumer a enterprise ale zbytek je stejny level jako consumer base. Loziska stejny, hlavy stejny, kastle stejny.Chyby stejny. Nektere SAS disky uz maji jen jiny konektor asvab navic a jiny a fw. Jiny fw a narocnejsi testovani je asi ten nejvetsi rozdil.

Bullshit o MTBF stale zustava. Na nizsi tiery se proste drahe enterprise disky nevyplaci pokud mate obcasnou jednostrannou zatez jako dlouhy read nebo write tak v pohode bych poridil hromadu rotacnich disku do desktopu. Jo je to uzasny prodat zakosovi 2x drazsi disk ve stovkach kusu a kdybych byl nagelovanej bezpaterni obchodak tak se budu svym obratem chlubit u piva ale na ty mene vyznamne tiery / castou zalohu je to proste vyhozeni penez z okna.

Zatim je dost velky rozdil v enterprise a consumer ssd/nvme discich a tady bych fakt slapnuti vedle neriskoval. Muzete prijit o velke kusy replik a ty levne ssd "placacky na mouchy" se chovaji velmi nepredvidatelne co se poruchovych stavu tyce. Coz je pro vetsi storage reseni kolikrat mnohem vic fatalni nez kdyby se z disku jen zakourilo.

BTW: Co se toho 12 let stareho clanku tyce, FC disky uz v novych instalacich nevidam nekolik let vubec. Vypada to ze je to co se tyce rozhrani disku je to vymrely druh.
Název: Re:HW raid 10 vs 6
Přispěvatel: mfrd 23. 01. 2021, 16:44:26
Jde o to pochopit základy a z toho odvodit dále. Poznat rozdíl, že SATA a SAS není jen rozdíl v konektoru, ale v mnohém dalším.

A propo MTBF opravdu není bullshit. Jen pro ty co ho označují za Bullshit asi neznají vztah k MTTR a dostupnosti. A samozřejmě počítání spolehlivosti při sériovém zapojení nebo paralelním zapojení.

MTBF je statistická hodnota, která se musí správně využívat. Pro neznalého člověka souhlasím je to nepoužitelné číslo.

Pokud si uvědomíme, že zejména u SATA při obnově existuje v současných kapacitách vysoká pravděpodobnost, že Rebuild RAIDu bude obsahovat neopravitelnou chybu. Tak snížení počtu rebuildů je významným faktorem, zejména pokud si uvědomíme jak s rostoucí kapacitou narůstá MTTR (tedy doba obnovy).

Samozřejmě, pokud uchováváte nedůležitá data, tak případná UER  (neopravitelná chyba) Vás netrápí. Pokud však data jsou důležitá, a znáte dobu a výslednou cenu obnovy pro případ takové chyby ze zálohy. Tak velmi rád zaplatíte x násobek vůči desktop komponentám. Spolehlivostní matematika je velmi jednoduchá a exponenciální. Prostě ano s porovnáním s Alzou, vám může připadat renomované diskové pole o stejné kapacitě jako předražený krám. Jsou však pouze dvě řešení, buď si problematiku nastudujete a víte proč platíte a nebo půjdete cestou pokusu a omylu, což však může hodně bolet. V demokracii je to pouze Vaše volba. Z odborného hlediska musím vyvažovat hodnotu pro zákazníka. Tj. vyvažovat náklady a rizika společně se zákazníkem.
Název: Re:HW raid 10 vs 6
Přispěvatel: jeyare 26. 01. 2021, 17:38:18
Dakujem za dokument z roku 2008. Je pravda, ze zopar zakladov je platnych aj dnes, ale ... radsej by som ten dokument dal do archivu. Pretoze je tu stale velka skupina odvaznych, ktorym staci si rychlo niekde precitat a prehlasit to za svatu pravdu.

Perla c.1 z dokumentu - Anatomy of an Enterprise Drive: 4 platters & 8 heads design
a realita z roku 2009 z mojich servrov:
- Seagate Constellation.2 SAS obsahoval 2x250GB platne a 4 R/W heads
nasledovnik Seagate Enterprise Capacity 2.5 HDD v3, obsahoval uz 3x400GB platne a 6 R/W heads
a to plati aj na dnesne disky.
ten kto pisal ten slideware nemal toho mnoho rozmontovaneho.
Název: Re:HW raid 10 vs 6
Přispěvatel: jeyare 26. 01. 2021, 17:45:15
k MTBF na zaver:
Citace
MTBF je statistická hodnota, která se musí správně využívat. Pro neznalého člověka souhlasím je to nepoužitelné číslo.

suhlasim, je to statisticky udaj. a ak robite s datami, tak by vam malo zalezat, aby ste vedel, ako presne k nemu ten vendor prisiel a ci sa da ten udaj zreplikovat vo vasich podmienkach.
Inak hrozi, ze si kupite auto, ktore statisticky havaruje 2x za 5 rokov, akurat to vase bude mozno zajtra mrtve. To je statistika.

A ako to vlastne je s tym realnym pouzitim MTBF pise aj Seagate:
https://www.seagate.com/gb/en/support/kb/hard-disk-drive-reliability-and-mtbf-afr-174791en/ (https://www.seagate.com/gb/en/support/kb/hard-disk-drive-reliability-and-mtbf-afr-174791en/)

Seagate is no longer using the industry standard "Mean Time Between Failures" (MTBF) to quantify disk drive average failure rates. MTBF has proven useful in the past, but it is flawed.
Název: Re:HW raid 10 vs 6
Přispěvatel: PanVP 26. 01. 2021, 22:28:58
Hoooši, měli byste jít dělat ředitele do firmy INTEL

Fakt jim jako chybíte!
Podívejte se, jaké píšou věci...teda...měli byste jim to vysvětlit.

https://www.intel.com/content/dam/support/us/en/documents/server-products/Enterprise_vs_Desktop_HDDs_2.0.pdf
Název: Re:HW raid 10 vs 6
Přispěvatel: mfrd 27. 01. 2021, 08:33:08
k MTBF na zaver:
Citace
MTBF je statistická hodnota, která se musí správně využívat. Pro neznalého člověka souhlasím je to nepoužitelné číslo.

A ako to vlastne je s tym realnym pouzitim MTBF pise aj Seagate:
https://www.seagate.com/gb/en/support/kb/hard-disk-drive-reliability-and-mtbf-afr-174791en/ (https://www.seagate.com/gb/en/support/kb/hard-disk-drive-reliability-and-mtbf-afr-174791en/)


AFR hodnocené za periodu jednoho roku.

relationship between AFR and MTBF (in hours) is

AFR=1-exp(-8766/MTBF)

Seagate změnil ukazatel z důvodu, jiné prezentace a nepochopení lidí. Ve své podstatě to v tom článku vysvětlili.



Název: Re:HW raid 10 vs 6
Přispěvatel: jeyare 28. 01. 2021, 11:53:54
pani, ten zdroj vypoctu (asi wikipedia) by ste mali brat naozaj ako silne teoreticky a zjednoduseny vypocet.

Dovod:
Vratim sa k jednej debate z roku 2014, ktoru mam poznacenu v mojich zalozkach. Ma v sebe viac reality, ako teorie. Link je tu:
https://www.truenas.com/community/threads/the-math-on-hard-drive-failure.21110/ (https://www.truenas.com/community/threads/the-math-on-hard-drive-failure.21110/)

Matematika (priamo v linku):
- pre vypocet Failures rate musite brat do uvahy, aky mate Array, kolko je v nom diskov a kolko je z toho realne redundandnych diskov
- ak do toho zaratate aj geometriu blokov, tak sa posuvate dalej k presnejsim vypoctom

Skuste si to dat do excelu a zistite, ktory typ RAIDu a nastavenia jeho poctu diskov/redundancie bude vplyvat na moznosti vzniku failures.
Ak ste prave zistili, ze RAID5 je na tom horsie ako RAID10, tak mate dalsi dovod skumat viac informacii ako len pozerat na MTBF.

MTBF je udaj, ktory "odhaduje" spolahlivost pri dodrzanych laboratornych podmienkach na skupine diskov (to je k tej statistike).
Nie je garanciou niecoho, co by malo byt brane ako primarny evaluator zivotnosti samotneho a konkretneho disku, ktory pouzivate.
Druhy pohlad MTBF = Mean Time = priemerny cas. Priemer je jeden z najmenej presnych ukazovatelov. Preto ludia na presne vypocty pouzivaju percentily.
Priemerny pocet hodin, kedy padne dopravne lietadlo je tiez k nicomu = MTBF je to iste.

Cela ta prezentacia, na ktoru ste tu upozornili je o rozdeleni na Enterprise/Desktop, ktora neberie do uvahy, ze svet nie je len cierny/biely. Dtto ten Intel doc.

Název: Re:HW raid 10 vs 6
Přispěvatel: mfrd 29. 01. 2021, 07:32:17
Jakékoliv vyjádření spolehlivosti má své problémy, zejména v tom kdy a jaké selhání se projevují. To jest větší míra problémů v počátcích a ke konci života daného zařízení.

MTBF je samozřejmě buď vypočtená hodnota nebo empiricky zjištěná. Samo číslo o sobě bez např. vazby na MTTR z praktického hlediska nepomůže.

Ano i wiki zobrazuje propočet na AFR, což samo o sobě není špatně . Stejně tak jako stejný přepočet používají např.
zde:

https://www.sciencedirect.com/topics/computer-science/mean-time-between-failure

AFR je pouze jiné vyjádření skutečnosti - procentuální- vyjádřené jako MTBF a naopak.

Pokud bude výrobce lhát a bude si připisovat vyšší spolehlivost (tedy vyšší MTBF, nižší AFR) než ve skutečnosti má. Pak jeho výrobky budou vnímané jako nekvalitní.

Jinak dále k původu dokumentu, který byl označen v průběhu diskuse, že autor je mimo mísu. Dokument je publikován pod hlavičkou SNIA. Tedy žádný studentík, který někde něco publikuje. Členové SNIA jsou společnosti vyrábějící disky a disková pole. Dále dokonce autor tjo slideware pocházel ze společnosti Seagate.

Dokonce i ten Intel refreshnutý dokument shrňuje to co je vyjádřeno ve SNIA dokumentu.



Název: Re:HW raid 10 vs 6
Přispěvatel: FactChecker 29. 01. 2021, 12:00:24
Pánové řešíte nesmysly. Disky jsou nespolehlivá zařízení a každý den hrajete loterii. Proto jsou v roce 2021 úvahy o RAID 10 nebo 6 zamrznutím v čase, řešením pro dnešní dobu je distribuované úložiště/FS.
Název: Re:HW raid 10 vs 6
Přispěvatel: AoK 29. 01. 2021, 15:16:18
Pánové řešíte nesmysly. Disky jsou nespolehlivá zařízení a každý den hrajete loterii. Proto jsou v roce 2021 úvahy o RAID 10 nebo 6 zamrznutím v čase, řešením pro dnešní dobu je distribuované úložiště/FS.

ano, i v konzervativním bankovním sektoru se přechází na distribuované uložiště, odhadem největší české banky už mají poměr 50:50 v porovnání s diskovými poli, ty už se skoro nerozšiřují.

Porovnávání čísel hypotetické spolehlivosti se řešilo snad vždy, pak člověk koupí disky najednou z jedné série a umřou mu všechny ve stejném čase.