Současný hardware pro 1PB storage

kkt1

  • *****
  • 796
    • Zobrazit profil
Re:Současný hardware pro 1PB storage
« Odpověď #30 kdy: 26. 06. 2018, 07:46:55 »
Zkusím se trochu zasnít:

Jestli správně počítám, 42 U = 14 šasi po 3U, do 3U se vejde standardně 16 disků normálně v šuplíku na čelní stěně. To je 224 disků. Takže pokud je požadavek na 1 PB, vycházelo by to na 4.5 PB na disk v RAIDu 0. Tzn. pokud by to byl RAID 10 nebo nějaká podobná míra redundance (+100%), vychází to na cca 9-10 TB disky. Případně jsou k vidění šasi pro 24x 3.5" disků v 4U. To by se do stojanu vešlo 240 disků + by zbyly 2U na nějaký ten server. Asi trochu nesmysl to takhle našlapat, ale takové jsou teoretické počty. A jsou i nějaká šasi, kde se disky zřejmě strkají *dovnitř* = nejsou jednotlivě dostupné pro hot-swap z čelní strany. Což pak podle mého znamená, že je třeba celé šasi odstavit kvůli výměně jednoho disku...

Od koho šasi? No pokud ne HP / IBM / EMC=DELL tak třeba Infortrend nebo tihle němci - vedle Infortrendu vedou i nějaké "svoje" značky s Arecou apod. uvnitř. Svého času tuším prodávali i Fujitsu nebo NEC, už nevím. Jsou na trhu už hrozně dlouho a výrobci přicházejí a odcházejí. Jo a abych nezapomněl, něco by se dalo vybrat taky u Supermicra (u nás Abacus / Compos).

Chápu správně, že to bude jediný veliký JBOD, nad kterým poběží ZFS?

Čím to připojit k serveru: no teoreticky asi přes SAS. Nakolik to bude provozně spolehlivé, bůh suď - celý ten strom JBODů bude samý single point of failure. Taky bacha jestli ty JBODy budou umět "větvit" / daisy-chainovat. Už si nepamatuju, jestli 240 disků nedojede na počet SCSI IDček na jedné sběrnici...

SAS dává teoreticky možnost, vydrátovat šasi "dvojmo" kvůli redundanci. A teoreticky jsou i nějaké disky, co mají dvojitý SAS uplink - jenom si nejsem jistej, nakolik je dvojitý SAS uplink na discích běžná věc. A jestli třeba takové ty "entry-level SAS Barracudy" nejsou naschvál single. A taky by to znamenalo, pořešit v serveru multipath. Další zajímavé téma je enclosure management a hot-swap jednotlivých disků. Matně si vybavuju z doby před 10-15 lety, že FreeBSD mělo už tehdy jakousi podporu pro enclosure manager šváby a normy...

Hrozně dlouho jsem neslyšel o discích s nativním FC, takže pokud by to mělo mít vnější interconnect přes FC, tak leda by to šasi obsahovalo bridge. Ještě mě napadá, jakpak je to s možností bridgovat SAS na InfiniBand.

A další možnost, jako alternativa ke kaskádě SAS expandérů nebo IB fabricu: vyvést ze serveru co nejtlustší PCI-e do externího expanzního šasi (nebo do dvou), do těch šasi naložit větší počet SAS HBA. A každý HBA kanál by pak měl na sobě třeba jediný expandér v jediném diskovém šasi. Tzn. žádný vícepatrový daisy-stromeček ze SAS expandérů. Ale zase by narostl potřebný prostor pro servery a expanzní PCI-e boxy. Hm popravdě kdyby ty JBODy měly každý jediný uplink, tak by se 5-7 SAS HBA (každý 2x multilane external) vešly teoreticky do jednoho 3U šasi. Které by navíc eventuelně mohlo mít svých 16 disků. Jde jenom o to najít serverový board se 7x PCI-e.

Asi netřeba zdůrazňovat, že celá tahle DAS pornografie je dost old-school. Větší kapacity se dneska běžně řeší spíš "cloudově a distribuovaně" nad Ethernetem nebo TCP/IP apod., tzn. samotné disky a HBA jsou nuda, zajímavé je SW uspořádání nad tím.

No a stojan naložený cca půl tunou šásek a disků, s běžnou spotřebou (topným výkonem) okolo 3 kW, při rozběhu klidně k 10 kW (ledaže staggered spin-up)... dneska už asi jsou hostingy, které tohle vezmou. :-) Předpokládám že nehrozí začátečnické chyby typu "stojan nedostatečně hluboký" nebo "teplo se o sebe postará samo" :-)

Jak už tady říkali ostatní, on to rád někdo dodá celé na klíč. A asi je i správně, aby si za to celé ručil. Ale taky je fakt, že není špatné, udělat si předem jasno, jestli třeba řadič externího RAIDu v rámci "fair balancingu" neomezí datový tok jednoho "vlákna" na 100 MBps zatímco Vy potřebujete na chroustání 4k videa 10x tolik apod :-) Nepříjemná nedorozumnění se občas stávají...

BTW terabajt RAMky? Jo aha, ono je to "vcelku normální"... dá se to nacpat do desky s pouhými 8 DIMM sloty, pokud seženete DIMMy o kapacitě 128 GB (v provedení DDR4 se údajně nějaké dělají). Nejnovější dvoupaticové desky s LGA2011 tohle umí vcelku běžně, našel jsem i nějaké jednopaticové... Nebo jestli jsou DIMMy 32GB pořád ještě citelně levnější, tak vzít desku se 16 DIMM sloty (2x Xeon E5) a spokojit se s 512 GB RAM.
Dekuji za smysluplnou reakci. Resim celkovou raw kapacitu 1PB, jak si to rozdelim pak je na me a mych pozadavcich ktere jsou mimo tuhle diskusi. Do racku by se AFAIK melo vejit 1PB bez problemu, treba backblaze ma ve 4U 60 disku, to co mam ted je takove na kolene poskladane reseni, ale kapacitne to nezabira vice nez 6U se 4tb disky, tudiz by to melo jit. Co se tyce ram a desek - mam nejakou predstavu, 1TB chci kvuli dedup a dalsim vecem, myslim ze 64gb moduly se daji sehnat, zalezi od konkretniho vyrobce. Pokud mate zkusenosti s konkretnimi deskami budu rad za info.


kkt1

  • *****
  • 796
    • Zobrazit profil
Re:Současný hardware pro 1PB storage
« Odpověď #31 kdy: 26. 06. 2018, 07:47:42 »
Nekrmte trolla. Jak tu psali prede mnou, kdyby opravdu něco takového někdy postavil a měl rozpočet na upgrade, tak by se buď neptal vůbec nebo ptal jinak.
Ja se ptam protoze za 4 roky se hv zmenil a jelikoz se v hw nepohybuji a nezivi me tak se ptam.

kkt1

  • *****
  • 796
    • Zobrazit profil
Re:Současný hardware pro 1PB storage
« Odpověď #32 kdy: 26. 06. 2018, 07:49:38 »
Vlastní HW mi nepřijde tak nereálný.

5 x 24bay enclosure se zdrojem, osvědčil se mi Supermicro 846TQ s minimální konfigurací (jen pro provoz zdrojů a řízení ventilátorů, 1ks vyšel okolo 12 tis.  Do nich po šesti adaptérech SFF-8087 <-> SFF-8088 https://www.ebay.com/itm/2-port-Internal-SFF-8087-to-External-8088-PCI-mini-SAS-26P-Adapter-SAS-RAID-WB1-/122940903725?hash=item1c9fd9512d , uvnitř napojit SFF-8087 kabely.

DL580 G7 4x osmijádro xeon E7-xxx + rozšiřující PCI-e sloty, celkem 11 PCI-e v2 min x8. - 20k

512GB RAM PC3-10600R okolo 20k (64 x 8GB). Lze 16GB dimmy, ale ty vyjdou podstatně dráž, pak 1TB

8x SAS 9200-16E , sloty na to jsou. Nemám vyzkoušené, zda bios jich pobere tolik, mám jen vyzkoušené 2 x 9200 + 1 x 8port.

S diskovými boxy propojit klasikou SFF8088 za pár stovek, v bundlu levnější. Mám to tak a funguje OK.

Je to už vše výběhové, PCIe-v2, ale bude sloužit ještě spoustu let. Elektřiny pár kW, ten DL580 si s 512GB RAM a 32jádry vezme okolo 800W.
Konecne clovek ktery pochopil jaky bastl mam a jaky bastl ocekavam. 🤦‍♂️😄 Podobnou skladacku mam, na nic nesahat a funguje to 4 roky. Potrebuji ale vice mista, tudiz upgrade. Diky za reakci.

kkt1

  • *****
  • 796
    • Zobrazit profil
Re:Současný hardware pro 1PB storage
« Odpověď #33 kdy: 26. 06. 2018, 07:51:39 »
1 PB stavíme z 14 DL380 (HPE proliant) po 22 4TB diskách, buď pro hadoop nebo jako cifs storage (pro ZFS to je také vyhovující). s Jedním management serverem, jedném catalystem, 5y support se cenou dostáváme na 10M. Stabilně zápis/čtení 5GB/s.

U HPE se poté také používají Apollo krabice, tam ale na počet disků je málo cpu, takže max. jako NAS storage. Nevím jak to je s freebsd, na proliantech běží.

Jsem schopný ti to celé postavit a zavést do DC jaké si vybereš, na většinu pražských již mám přístup a objevuji se tam pravidelně.
Zadne hp mi nesmi nikam. Zadne dc, ale poslu ti sz treba se domluvime na postaveni celeho bastlu jestli te bavi skladat tyhle ptakoviny.

kkt1

  • *****
  • 796
    • Zobrazit profil
Re:Současný hardware pro 1PB storage
« Odpověď #34 kdy: 26. 06. 2018, 07:54:23 »
Vy jste vážně lamy. Nechápu, proč na toho trola vůbec reagujete. Asi zase potřebujete nějakou tu studentku sociologie/ekonomie/psychologie, aby si z vás dělala zadek. Nějakou najdu.
Javamane? ;D


dustin

Re:Současný hardware pro 1PB storage
« Odpověď #35 kdy: 26. 06. 2018, 08:29:46 »
Použil bych více menších DIMMů, vyjde to podstatně levněji, cokoliv > 8GB roste cenově dost prudce. Větší servery mají slotů dost (DL 580 G7 64x, G8 96x, ale G8 stojí řádově víc než G7, přestože to není osazením velký rozdíl). Pro ZFS je stejně potřeba hodně jader, vůbec bych se pro takovou zátěž nebál té čtyřpatice. DL 580 G7 nyní vyjde vysloveně na pár šupů a po instalaci té rozšiřovací desky za dva litry má dost PCIe slotů na 16portové desky. Systém dávám na interní disky, pole do skříní mimo. Navíc lze takový server kdykoliv nahradit jiným, jenom se přehodí 2+ interní disky na systém + JBOD řadiče na externí disky.

Udělal jsem si vlastní skříň na 30 hotswap disků + zdroj, ale SATA konektory moc nedrží a při hotswap výměně disku se mi občas stává, že se uvolnil i ten vedle a to už je hodně špatně. Tak přecházím na ty 24bay skříně od Supermicro, v DE běžně v nabídce. Navíc to má profi duální zdroje, jen jsem si v nich vyměnil ventilátory za tišší, ale hluk tě  předpokládám nepálí.

Interní cage proliantů lze napojit na přídavný řadič s 8i výstupy a vynechat tak P410 s proprietárním formátem, aby bylo možné přejít snadno na jiný HW. Problém pak bývá bios HP, který z toho někdy nechce bootovat (ale linux disky vidí v pohodě). Takže OS nechávám na těch interních řadičích.

Sice používám starší karty SAS2/SATA2, ale bez expanderů, takže to jede OK.

IMO je ten petabajt reálný. Jen by to chtělo pořádnou redundanci. Počítal jsem to na 4 + 1, což je při tom počtu asi málo. Ale i pro 4 + 2 je to pořád 150 10TB disků, tedy 10ks 16portových karet, které se do toho DL580 vejdou. 32 jader  by i se ZFS mohlo cvičit.

daemon

Re:Současný hardware pro 1PB storage
« Odpověď #36 kdy: 26. 06. 2018, 08:32:45 »
Což se inspirovat hardwarem od iXsystems? U FreeNAS 4U mají v datasheetu kapacitu 1.73PB. Je v něm Xeon E5-2600v4 a 256 GB RAM.
Dekuji, konecne rozumna odpoved. Podivam se na to. Ta ram je imho pro 1pb nedostatecna, pouzivam na nekterych poolech deduplikaci a ta je holt nenazrana.

Hardware, který používají, je v podstatě Supermicro. Skříně mají akorát jinou čelní masku s logem FreeNASu.
Deduplikaci jsem nikdy neměl odvahu zapnout, takže v tomto směru radou neposloužím.

Budeš skladovat data z astroteleskopu nebo z detektoru částic? ;)

.

Re:Současný hardware pro 1PB storage
« Odpověď #37 kdy: 26. 06. 2018, 08:51:45 »
Budeš skladovat data z astroteleskopu nebo z detektoru částic? ;)
Můžu se samozřejmě mýlit, ale tipl bych to na vysokou školu. Peníze nejsou problém, smysluplnost se moc neřeší a takovéhle bastlení zpravidla patří k folklóru.

jeniceek

Re:Současný hardware pro 1PB storage
« Odpověď #38 kdy: 26. 06. 2018, 10:43:47 »
To že polovině lidí tady příjde toto naprosto zbytečné ještě neznamená, že někdo pro tu kapacitu nemá využití.
Hodně inspirace se dá najít tady: https://www.reddit.com/r/DataHoarder/

kutil


dustin

Re:Současný hardware pro 1PB storage
« Odpověď #40 kdy: 26. 06. 2018, 11:20:12 »
Mně na tom vadí ten expander :-)

Sten

Re:Současný hardware pro 1PB storage
« Odpověď #41 kdy: 26. 06. 2018, 12:16:29 »
A co prostě koupit dva 60diskové Storinatory (https://www.45drives.com/products/storinator-xl60-configurations.php), nacpat do nich 10 TB NAS disky (případně i pár NVMe pro cache) a nad tím rozjet ZoL a Gluster? Budete mít petabajt i s dostatečnou redundancí na RAID a zabere to jen 8U, takže do jednoho racku to nacpete pětkrát.

Jirka32

Re:Současný hardware pro 1PB storage
« Odpověď #42 kdy: 26. 06. 2018, 12:45:14 »
Mně na tom vadí ten expander :-)

A co ti na něm konkrétně vadí?

Re:Současný hardware pro 1PB storage
« Odpověď #43 kdy: 26. 06. 2018, 13:09:53 »
Vlastní HW mi nepřijde tak nereálný.

5 x 24bay enclosure se zdrojem, osvědčil se mi Supermicro 846TQ s minimální konfigurací (jen pro provoz zdrojů a řízení ventilátorů, 1ks vyšel okolo 12 tis.  Do nich po šesti adaptérech SFF-8087 <-> SFF-8088 https://www.ebay.com/itm/2-port-Internal-SFF-8087-to-External-8088-PCI-mini-SAS-26P-Adapter-SAS-RAID-WB1-/122940903725?hash=item1c9fd9512d , uvnitř napojit SFF-8087 kabely.

DL580 G7 4x osmijádro xeon E7-xxx + rozšiřující PCI-e sloty, celkem 11 PCI-e v2 min x8. - 20k

512GB RAM PC3-10600R okolo 20k (64 x 8GB). Lze 16GB dimmy, ale ty vyjdou podstatně dráž, pak 1TB

8x SAS 9200-16E , sloty na to jsou. Nemám vyzkoušené, zda bios jich pobere tolik, mám jen vyzkoušené 2 x 9200 + 1 x 8port.

S diskovými boxy propojit klasikou SFF8088 za pár stovek, v bundlu levnější. Mám to tak a funguje OK.

Je to už vše výběhové, PCIe-v2, ale bude sloužit ještě spoustu let. Elektřiny pár kW, ten DL580 si s 512GB RAM a 32jádry vezme okolo 800W.
Konecne clovek ktery pochopil jaky bastl mam a jaky bastl ocekavam. 🤦‍♂️😄 Podobnou skladacku mam, na nic nesahat a funguje to 4 roky. Potrebuji ale vice mista, tudiz upgrade. Diky za reakci.

Dobře vycházejí 4U JBODy od Supermicra - v SAS3 verzi na 44 disků nebo ve starší SAS2 na 45 disků. Jen pozor na chlazení - třeba do uzavřeného stojanu bez perforovaných dveří a chlazením podlahou bych takovou věc asi nedával.
Nativně je přední a zadní backplane s explanderem zřetězen - pokud si nehraješ na velké IOPS a datovou propustnost, tak to neni problém. Případně se předek a zadek vyvede ven samostatně a každá část připojí na vlastní HBA.

Pozor na to řešení s HBA co mají velký počet SAS portů - typicky mají tyhle HBA stejně na čipu jen 4 SAS linky, takže velký počet portů je pak spíš pro pocit -> pak bych spíš doporučil zřetězovat expandery za sebe. Nicméně ono to při použítí těhle boxů asi nebude potřeba - stačí vzít 2x tyhle 4U JBODy a naplnit je 12TB HDD - každý na samostatné HBA případně rozpojit uvnitř ty expandery a dát to na 4 HBA - to se pak vejde do skoro každého 2Učka a nemusí se řešit nějaký nesmyslný board se spoustou PCIe slotů.


dustin

Re:Současný hardware pro 1PB storage
« Odpověď #44 kdy: 26. 06. 2018, 13:30:30 »
Pozor na to řešení s HBA co mají velký počet SAS portů - typicky mají tyhle HBA stejně na čipu jen 4 SAS linky, takže velký počet portů je pak spíš pro pocit -> pak bych spíš doporučil zřetězovat expandery za sebe. Nicméně ono to při použítí těhle boxů asi nebude potřeba - stačí vzít 2x tyhle 4U JBODy a naplnit je 12TB HDD - každý na samostatné HBA případně rozpojit uvnitř ty expandery a dát to na 4 HBA - to se pak vejde do skoro každého 2Učka a nemusí se řešit nějaký nesmyslný board se spoustou PCIe slotů.

Díky, rád se nechám poučit někým zkušenějším. Pro 16portovou SAS9201 jsem našel jedině info, že používá LSI SAS 2116 a všude v datasheetu zmiňují 16 portů/8 PCIe lanes. Jde tedy o 16 SAS linek?

Pokud bych nepoužil expandéry, potřeboval bych > 100 portů, ne? Pro SAS2/SATA2 se mi do expandérů nechce, např. chci-li tam dát i SSD. Nebo PCIe NVMe a tam by se volné sloty opět hodily...