Fórum Root.cz

Hlavní témata => Server => Téma založeno: Pivson 05. 04. 2019, 20:15:26

Název: Stovky TB až jednotky PB diskové pole
Přispěvatel: Pivson 05. 04. 2019, 20:15:26
Hoj, kdybyste měli postavit diskove storage pro kapacitu v řádech stovek TB až jednotek PB a nechcete využívat enterprise produktů na klíč, co byste použili ? Samozřejmně s nějakou formou ochrany proti selhání (RAID, ZFS, ...). Rychlost ve stovkách MB/sec dostatečná, datově spíše větší soubory (10M a víc, vesměs stream access). Obecně WORM. (měna uložených dat nebude častá). Nechci řešit proč ne enterprise (no flame). Má to své důvody. Jakýkoli pronájem nehrozí (právní důvody).

Jasan, člověk má spoustu omezení, od velikostí disků a vztahu k době rebuildu (s velikostí HDD tento problém "roste"), naopak pak s prostorem (s nižší kapacitou rostou prostory/spotřeba), ... A samozřejmně fakt, že tohle se "zálohovat" fakt nedá.

Prostě v obecné podobě. Přístup výhradně 10G Eth a IP protokoly. A vhodných FS je okolo poměrně dost. Stejně se to musí nějak rozumně rozdělit a přístup řídit aplikačně. V tomto ohledu nejsou omezení (jak se to udělá, takové to bude :) Blockovej přístup (ala iSCSI a pod) není nutný.

Zatím mi nejlépe vychazá pěkné šasí, 4U a 60x 3.5" bays. 4-6 jsou tako akorát. K tomu 2 failure-safe controllery. A to celé na 2 fyzické místa. Disky spíše menší, ikdyž je to dražší jak z pohledu prostoru/energie. Zdá se, že menší pravděpodobnost výpadků a rychlejší rebuild za to stojí. A to se pak dotýka otázky, jesli vlastně řešit věci jako RAID50/60, nebo to nechat čistě na FS úrovni (držet kopie ala ZFS). Takže 1PB by se dal někde v řádu 0,75-1M  Kčs (jedna site) postavit, včetně disků.

Díky

P.
Název: Re:Stovky TB až jednotky PB diskové pole
Přispěvatel: Džan 05. 04. 2019, 20:31:38
Ceph - bud pouzivat block storage nebo file storage, nevim zda by v tvem pripade slo pouzit object storage.
Dosahuje to slusnych vykonu i na "levnem" HW, ale mam na tom asi jenom 100TB cluster.
Název: Re:Stovky TB až jednotky PB diskové pole
Přispěvatel: Pivson 05. 04. 2019, 20:47:13
S Ceph mám zkušenosti jen jako s object-storage, neumím si to moc přestavit na RAW data úložistě (soubory, typická velkost desítky až stovky MB, např. výstupy z mapovaní dronů). To ale neznamená, že to nejde samozřejmě :) Ale jinak to celkem pasuje jako zadek na hrnec. Můžu se optat, jak to na těch 100TB máš zneužitý ? Jestli ti to běží nad nějakým HW raid a pod. ve vztahu k výkonu a hlavně zotavení/rebuildu. Já také řešil storage jen zhruba do úrovně desítek TB a už to začínal být docela palčivý problém - jakýkoliv restore, rebuild, ...  A pak následně kumulované výpadky disků. A teď ještě větší disky a řádově vyšší kapacita. Obé to výrazně zhorší. Když započítáš firmy ala Blackbaze - tak velké disky mají jen stejnou spolehlivost (buďme optimisté) jako ty malé. Právě, jen stejnou... Pocitově mi to říka, že tohle bude jeden z největších "problémů".  Ono i google výsledky se tímhle docela hemží...

Díky

P.
Název: Re:Stovky TB až jednotky PB diskové pole
Přispěvatel: Jan Forman 06. 04. 2019, 01:53:12
On CEPH se zotavuje automaticky, rebuild tedy není nějaký problém. HW RAID pod tím být může, ale je spíš nepraktický (obzvlášť pokud tam budou SSD disky - wear level). Navíc by to prodlužovalo recovery - je to určitě míň bezpečné.
Jeden padlý disk je v podstatě téměř okamžitě replikován jinam (dle váhy), dat na ostatních discích se to netýká. Takže klasické problémy RAID tam vůbec neexistují.

Točivé disky ale nejsou zrovna extra vhodné, protože obvyklá konfigurace je 3/2 (dvě synchronní repliky, které se musí potvrdit třetí se vytvoří asynchronně). Výkon následně celkem vadne, ale zase nějaká tragédie to není.

Já bych viděl problém ve výkonu pokud to budou točivé disky. Co se týče bezpečnosti dat, zotavení, nerozpoznatelného výpadku tam není nic lepšího.

S Ceph mám zkušenosti jen jako s object-storage, neumím si to moc přestavit na RAW data úložistě (soubory, typická velkost desítky až stovky MB, např. výstupy z mapovaní dronů). To ale neznamená, že to nejde samozřejmě :) Ale jinak to celkem pasuje jako zadek na hrnec. Můžu se optat, jak to na těch 100TB máš zneužitý ? Jestli ti to běží nad nějakým HW raid a pod. ve vztahu k výkonu a hlavně zotavení/rebuildu. Já také řešil storage jen zhruba do úrovně desítek TB a už to začínal být docela palčivý problém - jakýkoliv restore, rebuild, ...  A pak následně kumulované výpadky disků. A teď ještě větší disky a řádově vyšší kapacita. Obé to výrazně zhorší. Když započítáš firmy ala Blackbaze - tak velké disky mají jen stejnou spolehlivost (buďme optimisté) jako ty malé. Právě, jen stejnou... Pocitově mi to říka, že tohle bude jeden z největších "problémů".  Ono i google výsledky se tímhle docela hemží...

Díky

P.
Název: Re:Stovky TB až jednotky PB diskové pole
Přispěvatel: RDa 06. 04. 2019, 12:48:36
Ma ten CEPH checksumy pro datove bloky a automaticky udela recovery z jineho nodu v pripade ze nesedi? A dokaze vyuzit disky, ktere maj >512B sektory pro tento ucel?
Název: Re:Stovky TB až jednotky PB diskové pole
Přispěvatel: Homeatcloud 08. 04. 2019, 12:03:48
Ano, Ceph automaticky dela scrubbing a tudiz podle checksumu objevi vadnou repliku driv, nez... bude vadna dalsi replika. Disky s velkymi sektory urcite nejsou problem.

Jinak pro Vase ucely bych doporucit take pouzit vetsi sasi a s radosti i velkokapacitni disky. Na tech 6 ks muzete udelat erasure code 4+2 a budete mit toleranci vypadku 2 serveru pri redundanci jen 150%. My stavime na mensich sasi, protoze to umoznuje vetsi propustnost (nebude bottleneck ve sbernicich disku, procesorech a sitovkach). Hodi se to na provoz virtualu a nahodne pristupy k deduplikovanym zaloham z naseho reseni pro Disaster recovery.

Dovolil bych si navrhnout, abyste hostoval Vase uloziste u nas. S Ceph mame nejake zkusenosti a muzeme napr. zainvestovat hardware pro Vasi druhou lokalitu a ladovat k nam zalohy pomoci asynchronni Ceph replikace. Ceny by mely byt pod 500 Kc/TB/mesic.
Home at Cloud