Rychlé úložiště pro virtualizaci

CPU

  • *****
  • 1 062
    • Zobrazit profil
    • E-mail
Rychlé úložiště pro virtualizaci
« kdy: 02. 12. 2023, 10:19:53 »
Ahoj,

pro jednoho spořivějšího kamaráda potřebuji poměrně dost rychlé úložiště.

O co se jedná:
- cca 15 málo náročných Widlo Serverů
- cca 50 málo náročných Debianích serverů

Virtualizace je na VMware 7, aktuální storage je připojená přes iSCSI a asi bych u ní rád zůstal.
Aktuálně to má na QNAPu, prostý RAID5, který to tak nějak zvládá, pokud se nepustí hodně věcí naráz (třeba aktualizace na všech strojích naráz a podobně).

Z důvodu cenové úspory jsem přemýšlel o nahrazení QNAPu serverem se ZFS:
- 2x10core CPU jednak kvůli L3 a jednak kvůli možnosti osazení paměťových modulů
- 384 GB RAM (hodně kvůli ARC cache)
- 2x SSD 400 GB pro L2ARC (prý není nutný RAID, selhání prý není zásadní problém)
- 3x mirrorovaný SLOG
- ZFS nad RAID5 (to mě sice obere o část výhod ZFS, ale výhodou je rychlost RAID5)

Já osobně bych to hodil na Debian, ale slyšel jsem názory, že TrueNAS se ZFS si povede lépe a bude to mít pohodlnou administraci. Pak mi to poplival i kamarád, že mám použít CEPH, protože se ZFS bude bolest zaručit HA (byť teď taky není). Pak mi to poplival další kámoš, že místo RAID5 mám použít 3+3 disky na dva Datasety, že jeden by byl pomalejší než RAID5, ale po rozdělení to bude čistší.

Budu rád za vaše poznámky, pokud povedou správným směrem...
« Poslední změna: 02. 12. 2023, 10:22:57 od CPU »


krpet

Re:Rychlé úložiště pro virtualizaci
« Odpověď #1 kdy: 02. 12. 2023, 10:42:31 »
Muzete pouzit TrueNAS Scale, coz je nova generace TrueNASu postavena nad Debianem.
Co jsem se tak dival, kolegove davaji prednost raid10 pred raid5 prave kvuli rychlosti.

CPU

  • *****
  • 1 062
    • Zobrazit profil
    • E-mail
Re:Rychlé úložiště pro virtualizaci
« Odpověď #2 kdy: 02. 12. 2023, 11:30:09 »
Ted do me kamos huci, at to nedelam nad RAID. Že se otevřou dveře pekla, pozřou všechna moje data a já skončím v sekci pekla pro patlaly a PHPkáře... ::)


Já si uvědomuji, že to pak nebude škálovat, ale to nevadí. Naopak mi vyhovuje údržba na úrovni řadiče.
« Poslední změna: 02. 12. 2023, 11:35:42 od CPU »

Re:Rychlé úložiště pro virtualizaci
« Odpověď #3 kdy: 02. 12. 2023, 11:39:55 »
SCALE ne, maji na to hrani, vyhazeji spoustu standardnich funkci jako "too old for us" a pak to tam musi clovek lamat nazpet nebo cekat, az si to rozmysli. Je tam velky bonus u kontejnarizace, ale ten use case nediskutujeme.

ZFS a "dost rychle uloziste" se vetsinou nevyskytuje v jedne vete (podotykam, ze ja mam ZFS vsude, nejsem antifan). A tyhle diskuse se vzdy zmeni v alchymistickou diskusi "tajnych kombinaci parametru"

Pocet core nebo L3 nema moc vliv. Hodne stare CPU - OK, typicky bazarovy Xeon 55x0 porad na 100% a zastropoval rychlost, a to nebylo sifrovani zapnuto.

Uzitecnost mega velke pameti bych neprecenoval, pokud to clovek nepouziva s deduplikaci. A zda se, deduplikaci dnes skoro kazdy vzdal. V kazdem pripade pri tehle velikosti RAM uz L2ARC toho moc neprinese.

FYI, co se tyka zapisu, ZFS kesuje do RAM neco jako "5 sekund transakci co prosly NIC". Prvnich 5 sekund zapis jede, co LAN da a RAM pojme, potom to spadne na rychlost zapisu tech koncovych disku.

Cele tohle nema smysl diskutovat a optimalizovat, pokud nemluvime NVME. 

p.S. zazracne pomoci by mohlo ZFS Metadata Special Device. Ja se toho bojim a bez trojiteho miroru bych se k tomu ani nepriblizil.



Re:Rychlé úložiště pro virtualizaci
« Odpověď #4 kdy: 02. 12. 2023, 11:43:11 »
ve smyslu ze ten raid bude "transparentne" delat ten  HW RAID radic? A TrueNas bude celou dobu videt "jediny vysledny disk"?

V tom pripade tahle diskuse nema dalsi smysl.

Ted do me kamos huci, at to nedelam nad RAID. Že se otevřou dveře pekla, pozřou všechna moje data a já skončím v sekci pekla pro patlaly a PHPkáře... ::)


Já si uvědomuji, že to pak nebude škálovat, ale to nevadí. Naopak mi vyhovuje údržba na úrovni řadiče.


Re:Rychlé úložiště pro virtualizaci
« Odpověď #5 kdy: 02. 12. 2023, 11:55:04 »
Pokud chceš "HW" krabici tak o ZFS nebo Cephu nemá smysl uvažovat. Rychlostně slušné a levné bedny jsou od Huaweii (OceanStor).
Btw. ZFS bych stejně nikomu nepodoručoval, na malé věci je to celkem nevhodné a na ty větší zase neškálovatelné.
„Řemeslo se naučí každý. Umění nikdo.“
„Jednoduchost je nejvyšší úroveň sofistikovanosti.“
- Leonardo Da Vinci

CPU

  • *****
  • 1 062
    • Zobrazit profil
    • E-mail
Re:Rychlé úložiště pro virtualizaci
« Odpověď #6 kdy: 02. 12. 2023, 12:06:12 »
ve smyslu ze ten raid bude "transparentne" delat ten  HW RAID

Ano a podle všeho to tak provozuje poměrně dost lidí a v podstatě ze stejných důvodů, které pro to mám já.

Citace
I run ZFS on top of HP ProLiant Smart Array RAID configurations fairly often.
Why?
https://serverfault.com/questions/545252/zfs-best-practices-with-hardware-raid

Moje důvody:
- vizuálni notifikace pri selháni disku, server začne blikat
- interní diagnostika začne hlásit problém
- jednotnà propagace závady
- okamžité nahrazeni disku pomocí volného SPARE + dostatečné zálohy
- RAID s 8GB cache zálhovaný baterkou a vylepšeným time-improved-NCQ

Všechno, co se použitím RAID5 pod ZFS stane nerelevantní, mi bud nevadí nebo je nahrazeno výhodou ve formě výkonu. A skutečně jsem nenašel nic kromě "použití RAIDu pod ZFS je jako chodit po ulici jen v tričku, bez kalhot a trenek...".  No ano, přiznam se, že netuším, proc by to mělo být takové zlo.

AD L2ARC - tedy myslíš, že je při 284 GB zbytečná?

Deduplikace je IMHO k prdu, žere RAM a výsledky jsou "pochybné/neprůkazné".

CPU

  • *****
  • 1 062
    • Zobrazit profil
    • E-mail
Re:Rychlé úložiště pro virtualizaci
« Odpověď #7 kdy: 02. 12. 2023, 12:13:39 »
Btw. ZFS bych stejně nikomu nepodoručoval, na malé věci je to celkem nevhodné a na ty větší zase neškálovatelné.

Huawei lidi děsí...a ředitelé nakupy nepodepisují. Jinak okolo mě lidé používají jak CEPH, tak i ZFS. Bohatší firmy samozřejmě věci jako Netapp nebo řešeni od Dellu (PowerVaulty s pod).

CEPH dnes tlači i IBM ve formě IBM CEPH STORAGE a ZFS dělá každý, kdo chce používat snapshooty.

Ale budu rád, pokud to rozvedete , právě ten ten CEPH jsem se chtěl do budoucna naučit, že je v něm budoucnost...

Re:Rychlé úložiště pro virtualizaci
« Odpověď #8 kdy: 02. 12. 2023, 12:21:43 »
Místo konfigurace by jsi měl spíše upřesnit jaký potřebuješ datový tok po síti.
Množství virtuálních serverů znáš, kolik jich je fyzických jsi nenapsal.
Ani jsi nenapsal jaký provoz tím budeš zajišťovat, to je nějaký hosting, nebo firma se specifickými požadavky?
A cenový rozpočet?!
Velikost cache je nesmyslně velká, běžné RAID řadiče mají 4GB a zvládají to bez problémů, nicméně to pouze můj názor.

Toto se většinou staví na 40Gbit sítích apod.
A většinou se to staví na vysoké dostupnosti.

Ale jestli se jedná pouze o hračku, tak na to odpovědi nemám, tam jsi limitován pouze svými finančními možnostmi.

Re:Rychlé úložiště pro virtualizaci
« Odpověď #9 kdy: 02. 12. 2023, 12:41:05 »
citujes snad jediny  souhlasny nazor z veledlouhe diskuse, tohle root vlakno jen postupne zopakuje vsechny ty nesouhlasne komentare. jen konstatuji...

-blikani zavad, interni diagnostika...  - jasne, uz jen to blikani vadneho disku je bolest, kdyz si to stavis doma. Ale to taky znamena, ze te jakekoli kontrolni mechanismy ZFS nezajimaji potoze nebudou blikat a navic stejne budou obchazeny).Ale co teda z toho ZFS zbude, co je teda pridana hodnota ZFS,  ktery je proste silene pomaly kvuli vsem tem kontrolnim mechanismum, Snapshoty? 

ve smyslu ze ten raid bude "transparentne" delat ten  HW RAID

Ano a podle všeho to tak provozuje poměrně dost lidí a v podstatě ze stejných důvodů, které pro to mám já.

Citace
I run ZFS on top of HP ProLiant Smart Array RAID configurations fairly often.
Why?
https://serverfault.com/questions/545252/zfs-best-practices-with-hardware-raid

Moje důvody:
- vizuálni notifikace pri selháni disku, server začne blikat
- interní diagnostika začne hlásit problém
- jednotnà propagace závady
- okamžité nahrazeni disku pomocí volného SPARE + dostatečné zálohy
- RAID s 8GB cache zálhovaný baterkou a vylepšeným time-improved-NCQ

Všechno, co se použitím RAID5 pod ZFS stane nerelevantní, mi bud nevadí nebo je nahrazeno výhodou ve formě výkonu. A skutečně jsem nenašel nic kromě "použití RAIDu pod ZFS je jako chodit po ulici jen v tričku, bez kalhot a trenek...".  No ano, přiznam se, že netuším, proc by to mělo být takové zlo.

AD L2ARC - tedy myslíš, že je při 284 GB zbytečná?

Deduplikace je IMHO k prdu, žere RAM a výsledky jsou "pochybné/neprůkazné".

RDa

  • *****
  • 2 934
    • Zobrazit profil
    • E-mail
Re:Rychlé úložiště pro virtualizaci
« Odpověď #10 kdy: 02. 12. 2023, 12:56:08 »
Nikde nevidim kapacitu a pozadovane IOPS. Vystupem bude co? iSCSCI nebo NFS / SAMBA? A co hw/sitova topologie - na kolika hostech jsou ty VM?, je to vse v 10GbE klientech nebo ma storage 40GbE a mas pak agregaci na switchi ?

CPU

  • *****
  • 1 062
    • Zobrazit profil
    • E-mail
Re:Rychlé úložiště pro virtualizaci
« Odpověď #11 kdy: 02. 12. 2023, 13:03:13 »
Ale co teda z toho ZFS zbude, co je teda pridana hodnota ZFS,  ktery je proste silene pomaly kvuli vsem tem kontrolnim mechanismum, Snapshoty? 

- Cena
- Snapshoty
- Replikace (až najdou nějaké prašule, chtěl jsem rozjet online replikace)
- Cache, především jsem chtěl velmi silný a robustní mechanismus Cache, který odbaví požadavky dřív, než probublají k poli (LARC, L2ARC atd.)
- nároky na IT obsluhu, protože i ňouma zvládne najít a vyreklamovat blikající disk
- chci využít poměrně výkonný řadič zálohovaný baterkou s velkou cachce

Naopak nepotřebuji:
- flexibilní a snadno rozšiřitelné pole
- selhání více disků se nijak extra nebojím
- používat podivné disky s určitou mírou chybovosti (všechno to jsou DC disky)

Možná zkusím výkon ZFS v režimu HBA a s CACHE...jde mi primárně o výkon.

CPU

  • *****
  • 1 062
    • Zobrazit profil
    • E-mail
Re:Rychlé úložiště pro virtualizaci
« Odpověď #12 kdy: 02. 12. 2023, 13:06:47 »
Nikde nevidim kapacitu a pozadovane IOPS. Vystupem bude co? iSCSCI nebo NFS / SAMBA? A co hw/sitova topologie - na kolika hostech jsou ty VM?, je to vse v 10GbE klientech nebo ma storage 40GbE a mas pak agregaci na switchi ?

Na začátku jsou dva VMware hosty s ručním přepínáním VM, pokud se na některém hostu dělá údržba.
Stroje jsou připojené přes iSCSI, každý má svůj 10Gbps adaptér vyhrazený pro data, aplikační vrstva má svojí lan. Počet IOPS jsem nepočítal, ale odhadem si myslím, že by se 90% mělo odbavit z cache.

CPU

  • *****
  • 1 062
    • Zobrazit profil
    • E-mail
Re:Rychlé úložiště pro virtualizaci
« Odpověď #13 kdy: 02. 12. 2023, 13:33:07 »
citujes snad jediny  souhlasny nazor z veledlouhe diskuse

Martin Cracauer napsal:
Citace
ZFS will work just fine on the single block devices provided by the RAID controller.
As others have said, the important thing is how you notify yourself of disk breakages and how you manage disk replacements. If you are already comfortable with the support software for your controller that would be fine. Otherwise I would let FreeBSD do the mirrors.
https://forums.freebsd.org/threads/zfs-on-hardware-raid.84861/

Martin Cracauer se jako vývojář dost angažuje v ZFS:
https://www.cons.org/cracauer/
https://github.com/openzfs/zfs/issues/8396
https://medium.com/@MartinCracauer/stupid-zfs-tricks-expanding-zraid-79e716d41fad

Ale těch lidí je daleko víc, kteří tvrdí v podstatě to samé.
Tedy že na jedné straně se odřízneš od některých vychytávek, ale na straně druhé to je v podstatě v pohodě, pokud zajistíš výměnu selhávajícího HW a monitoring jinak. ::)
« Poslední změna: 02. 12. 2023, 13:35:03 od CPU »

RDa

  • *****
  • 2 934
    • Zobrazit profil
    • E-mail
Re:Rychlé úložiště pro virtualizaci
« Odpověď #14 kdy: 02. 12. 2023, 13:37:55 »
Nikde nevidim kapacitu a pozadovane IOPS. Vystupem bude co? iSCSCI nebo NFS / SAMBA? A co hw/sitova topologie - na kolika hostech jsou ty VM?, je to vse v 10GbE klientech nebo ma storage 40GbE a mas pak agregaci na switchi ?

Na začátku jsou dva VMware hosty s ručním přepínáním VM, pokud se na některém hostu dělá údržba.
Stroje jsou připojené přes iSCSI, každý má svůj 10Gbps adaptér vyhrazený pro data, aplikační vrstva má svojí lan. Počet IOPS jsem nepočítal, ale odhadem si myslím, že by se 90% mělo odbavit z cache.

Mno kdyz je to iSCSI, tak to je blockdev, to muzes rovnou vysdilet procachovany hw raid (treba pres DM) a nemusis resit FS na strane toho uloziste jakoze vubec. A v jednotlivych hostech muzes mit ext4 / ntfs a papa.

Kapacitne se to nevejde do SSD cele to pole? pokud jde o vykon, tak to ma rozhodne lepsi pomer cena/vykon nez adekvatni hdd reseni.