Současný hardware pro 1PB storage

kkt1

  • *****
  • 796
    • Zobrazit profil
Re:Současný hardware pro 1PB storage
« Odpověď #60 kdy: 27. 06. 2018, 22:15:44 »
Vlastní HW mi nepřijde tak nereálný.

5 x 24bay enclosure se zdrojem, osvědčil se mi Supermicro 846TQ s minimální konfigurací (jen pro provoz zdrojů a řízení ventilátorů, 1ks vyšel okolo 12 tis.  Do nich po šesti adaptérech SFF-8087 <-> SFF-8088 https://www.ebay.com/itm/2-port-Internal-SFF-8087-to-External-8088-PCI-mini-SAS-26P-Adapter-SAS-RAID-WB1-/122940903725?hash=item1c9fd9512d , uvnitř napojit SFF-8087 kabely.

DL580 G7 4x osmijádro xeon E7-xxx + rozšiřující PCI-e sloty, celkem 11 PCI-e v2 min x8. - 20k

512GB RAM PC3-10600R okolo 20k (64 x 8GB). Lze 16GB dimmy, ale ty vyjdou podstatně dráž, pak 1TB

8x SAS 9200-16E , sloty na to jsou. Nemám vyzkoušené, zda bios jich pobere tolik, mám jen vyzkoušené 2 x 9200 + 1 x 8port.

S diskovými boxy propojit klasikou SFF8088 za pár stovek, v bundlu levnější. Mám to tak a funguje OK.

Je to už vše výběhové, PCIe-v2, ale bude sloužit ještě spoustu let. Elektřiny pár kW, ten DL580 si s 512GB RAM a 32jádry vezme okolo 800W.
Konecne clovek ktery pochopil jaky bastl mam a jaky bastl ocekavam. 🤦‍♂️😄 Podobnou skladacku mam, na nic nesahat a funguje to 4 roky. Potrebuji ale vice mista, tudiz upgrade. Diky za reakci.

Dobře vycházejí 4U JBODy od Supermicra - v SAS3 verzi na 44 disků nebo ve starší SAS2 na 45 disků. Jen pozor na chlazení - třeba do uzavřeného stojanu bez perforovaných dveří a chlazením podlahou bych takovou věc asi nedával.
Nativně je přední a zadní backplane s explanderem zřetězen - pokud si nehraješ na velké IOPS a datovou propustnost, tak to neni problém. Případně se předek a zadek vyvede ven samostatně a každá část připojí na vlastní HBA.

Pozor na to řešení s HBA co mají velký počet SAS portů - typicky mají tyhle HBA stejně na čipu jen 4 SAS linky, takže velký počet portů je pak spíš pro pocit -> pak bych spíš doporučil zřetězovat expandery za sebe. Nicméně ono to při použítí těhle boxů asi nebude potřeba - stačí vzít 2x tyhle 4U JBODy a naplnit je 12TB HDD - každý na samostatné HBA případně rozpojit uvnitř ty expandery a dát to na 4 HBA - to se pak vejde do skoro každého 2Učka a nemusí se řešit nějaký nesmyslný board se spoustou PCIe slotů.
Na tohle jsem se koukal, iops me nejak zasadne neomezuje. Dekuji!


kkt1

  • *****
  • 796
    • Zobrazit profil
Re:Současný hardware pro 1PB storage
« Odpověď #61 kdy: 27. 06. 2018, 22:19:27 »
Dekuji za smysluplnou reakci. Resim celkovou raw kapacitu 1PB, jak si to rozdelim pak je na me a mych pozadavcich ktere jsou mimo tuhle diskusi. Do racku by se AFAIK melo vejit 1PB bez problemu, treba backblaze ma ve 4U 60 disku, to co mam ted je takove na kolene poskladane reseni, ale kapacitne to nezabira vice nez 6U se 4tb disky, tudiz by to melo jit. Co se tyce ram a desek - mam nejakou predstavu, 1TB chci kvuli dedup a dalsim vecem, myslim ze 64gb moduly se daji sehnat, zalezi od konkretniho vyrobce. Pokud mate zkusenosti s konkretnimi deskami budu rad za info.

Popravdě v levném serverovém HW mám spíš dávné vzpomínky než nějaký aktuální přehled. Dustin vypadá, že je víc v obraze a má přehled o značkovém HW.

Obecně každému doporučuji, mít disky v šuplíkách jednotlivě přístupné zepředu (aby šly jednotlivě vyměňovat) a identifikovatelné, proto enclosure management. V momentě, kdy RAID vykopne disk, tak člověk brečí vděkem za failure LEDku - ale zákazníkům se to předem občas těžko vysvětluje :-) Na in-band SES se dá sáhnout pomocí sesutil (používá driver ses).

Z tohoto důvodu, a taky kvůli chlazení, váze a hloubce (klidně přes metr) se mi nelíbí kastle, kde se do 4U nacpe 60-100 disků nastojato.

Pokud to nebude někde v útulné "teplé a studené uličce" tak bacha ať má stojan po celé ploše děrovaná vrata vpředu i vzadu (a osobně bych se snažil omezit i falešný vzduch uvnitř stojanu zezadu dopředu). Pokud máte ten luxus vybrat si stojan, tak 80cm šířka dává prostor po stranách pro umístění distribuce napájení a tahání kabeláže (ale bacha na ten falešnej vzduch).

Obecně u nového hardwaru je volba spíš věcí osobního vkusu a subjektivní důvěry v konkrétní značku - protože u toho prostě nejsou zkušenosti s konkrétním modelem motherboardu, zdrojů apod. Statistika se vytvoří až po létech běhu, a tou dobou je na trhu HW zas o dvě generace novější.

Jak jsem psal, nemám zkušenosti s aktuálním HW tohoto kalibru, ale dlouhodobě dost věřím značce Areca, a třeba Supermicro vypadá, že nakonec taky docela funguje (poslední průser si vybavuju ještě v dobách končící Capacitor Plague).

Zjistil jsem, že dokonce Areca má v nabídce JBODy na 12 disků/2U nebo 24disků/4U. Uvnitř je expandér (nebo dva pro redundanci) a zezadu kouká jako uplink 12Gb SAS (x4 multilane). Tzn. není to direct attach, ale ten multilane SAS nebude úplně pomalý. Bude pomalejší než Dustinův nekompromisní "přímý propoj na každý jednotlivý disk". Případně by se dalo přemejšlet, jestli vzít šasi po 12 nebo 24 discích (šasi po 12 discích dá teoreticky větší průchodnost, ale vyjde dráž.)

Popravdě se mi Arečí "PS/2" zdroje s 80mm ventilátorem líbí víc, než Supermicrovic napájecí zdroje, hubené a dlouhé s 40mm větráky - ale je to jenom bezelstný pohled zvenčí, ono u zdrojů hodně záleží na obvodovém řešení, součástkách, detailech zapojení/chlazení, jmenovitém dimenzování atd.

Areca má taky nějaké "svoje" SAS HBA, tuším končí na 6 Gbps (opět - vcelku proč ne) ale určitě budou fungovat i HBA od LSI apod. Arečí vlastní ARC-1320 má čipy Marvell, expandéry jsou pravděpodobně od LSI.

Bejvaly doby, kdy SASové čipy vyrábělo AVAGO a LSI a navzájem si konkurovali. Dneska jsou zřejmě oba pod jednou střechou (LSI bylo sežráno Avagem a Avago se zanedlouho přejmenovalo na Broadcom). Zdá se, že aktuální 93xx/94xx jsou nadále "3rd-gen MPT SAS" (tzn. dědictví LSI Fusion MPT) ale skoro mám pocit, podle IDček z Windows driverů, že 94xx ještě možná nejsou komplet v Linuxové vanilce (driver mpt3sas) a prakticky shodná je koukám situace ve FreeBSD (driver mrsas). Čili situace je stejná jako před 15-20 lety: aktuálně prodávaný nejnovější HBA hardware ještě nemá drivery v distribucích :-) Opět má pravdu Dustin: držet se vyzkoušených modelů. (A to se snažím nevzpomínat na dávné quirky třeba u Adaptecu.)

Mě osobně se líbí šasi od Arecy. Jsou hluboká jenom asi 50 cm, všechno přístupné pro servis zvenčí, celá kisna se připojí k HBA jediným fousem. Do 16 U se vejde 96 disků, k serveru se to připojí 4 nebo 8 fousy. Na to teoreticky stačí 1-2 HBA karty (při dvojitě redundantním připojení 2-4).

Dustinova koncepce "direct attach" má teoreticky tu výhodu, že každý disk má svůj vlastní kanál na HBA, tzn. nevstupuje do toho expandér. (V dávných dobách se tradovalo, že za určitých okolností expandér jede proti HBA jediným lanem, ale už nevím, jestli to bylo v případě kdy se skrz expandér sahalo na SATA disk, nebo jediné vlákno, nebo v čem byl přesně problém.) Direct attach má maximální průchodnost. Kromě toho je expandér další potenciální "point of failure".
Odhadem může být problém, dosáhnout při "direct attach" na failure LEDky, protože jednotlivě připojené disky nemají in-band SES (expandér pravděpodobně ano). Leda by se z HBA do backplanu dalo dotáhnout ještě taky SGPIO. Matně si vybavuju, že TQ šáska SuperMicro SGPIO podporují. Ale nenašel jsem zmínky, že by SGPIO podporovaly mpt3sas HBA's a že by se na to dalo nějak sáhnout. Čili SGPIO asi leda v kombinaci s HW RAIDem :-(

Tady jsem našel debatu se zmínkou o ZFS nad multipath SASem proti diskům: Debatěj tam taky o zapřažení flash SSD a že to jde připojit na multipath pomocí "redukce do šuplíku". Konkrétně od Supermicra.

Pokud se týče boardů, koukal jsem na tyhle s DDR4: 1 2 3 4 . Plus spousta příbuzných. Koukám všechny berou DDR4 LR paměti. Uvedené desky jsou všecky s LGA2011, ale tamtéž jsou k vidění i sestřičky s LGA3647. Poslední PCI-e slot bývá jenom x4, ale není to železné pravidlo a i kdyby, tak PCIe 2.0 nebo 3.0 x4 má průchodnosti pořád relativně dost.

Pokud se týče RAM, namátkou jsem nahlédl zde: DDR4 ECC REG a DDR4 LR. (Nemám s tou firmou nic společného.) Bacha ECC REG a LR zřejmě nejsou v konkrétním boardu záměnné. Jasně jsou to koncovky, dál to komentovat nebudu. Pro přehled to myslím stačí velmi dobře. Pokud správně rozumím, "škáluje" u DDR4 cena lineárně mnohem dál než u DDR3. Nebo se u DDR3 bavíme o 8GB modulech z druhé ruky, které adminům "zbývají" při upgradech a proto jsou levné? Tolik k nápadu repasovat starší hardware a cpát do něj terabajt DDR3.

Pokud se týče disků: podle popisu připadají v úvahu např. Seagate Exos x12 (až 12 TB), Exos x10 (až 10 TB), Exos 7E8 (až 8 TB). x10 a x12 jsou héliové, 7e8 je zřejmě plněný vzduchem. Všechny tři rodiny obsahují SATA i SAS modely, na výběr je kupodivu dodnes velikost sektoru 512B nebo 4 kB. A všechny modely se SAS rozhraním mají dvojitý uplink - pokud by byl zájem o multipath zapojení disků.

Pokud byste se zajímal o Arecu/Supermicro, tak Starline, Abacus i Compos tenhle hardware staví/prodávají dlouhá léta (a snad se i trochu starají o zákazníky v DC), budou vědět co a jak, přitom jsou to pořád v zásadě "železářství" tzn. doufám žádní nafukovací hochštapleři.
Dekuji! Hw budu kupovat v Nemecku.

kkt1

  • *****
  • 796
    • Zobrazit profil
Re:Současný hardware pro 1PB storage
« Odpověď #62 kdy: 27. 06. 2018, 22:24:26 »
S těmi ledkami je to samozřejmě u "samodělek" problém. Řešíme to tak, že každý šuplík má na sobě samolepku se sériovým číslem (na úvod se vytisknou všechny najednou a rozstříhají). Při startu mám jednoduchý skript, který do TXT souboru naháže veškeré mapování sdXY -> sériové číslo.

Při výměně disku se vždy vytiskne nová samolepka, aby to bylo vždy aktuální.

Mapování na sdXY není až tak potřeba, protože v ZFS disky identifikujeme rovnou labelem obsahujícím sériové číslo, takže vypadlý disk je hned v zpool status vidět a stačí zkopírovat/poslat mailem/hodit přes lpr na tiskárnu. Pak už jenom koukat a nesáhnout vedle :-) Mapovací info se hodí spíš jen pro legacy mdraid.

8GB DDR3 ECC jsou tak levné, protože většina korporací G7 generace = DDR3 vyřazuje a je jich plný repas trh - 32jádrová DL580 G7 za poslední dva roky spadla ani ne na polovinu. Ale ten HW ještě pár let vydrží a za tyhle peníze je snadné mít ve skladu rezervní.

Samozřejmě pokud má někdo budget na nové, nebude ztrácet čas repasem...
S tema stitky to mam udelane ted stejne, ale u 1PB si to proste uz neumim predstavit. Uz i ted je to pakarna najit ten spravny serial no na nekterem z disku...