Hardwarový RAID nebo ZFS?

AltarSK · « **kdy:** 20. 05. 2025, 14:01:01 »

Ahojte.
Filozofická otázka.
Už je to nejaký čas čo som naposledy inštaloval server.
Dostal sa mi do rúk PowerEdge R660xs s 6x SSD diskami a ja silno premýšľam či na ňom spraviť RAID5 (prípadne RAID10) pole na radiči od servera alebo kvôli SSDčkám radšej spraviť RAID na ZFS v OS (Proxmoxe).
Neviem nikde nájsť info či raid na tomto serveri podporuje TRIM a potom mám obavy že v nakonfigurovanom "hw" raide neuvidím skutočný stav (Wear level) diskov.
Doteraz som mal vždy klasické hdd a raid som robil na radiči od servera. Ale teraz fakt neviem.

Máte nejaké odporúčania alebo užitočné myšlienky v tomto smere?

Reklama

Libor · « **Odpověď #1 kdy:** 20. 05. 2025, 14:59:34 »

jsem v podobné situaci. Z toho co jsem zatím zjistil:

ZFS NESMÍ běžet nad HW RAIDem
do serveru je nutno dát řadič bez RAID, nebo do některých řadičů prý lze nahrát firmware bez RAIDu

Zatím jsem to taky nedořešil, rád si nechám poradit od někoho kdo už to dělal nebo se v tom vyzná

hungarec · « **Odpověď #2 kdy:** 20. 05. 2025, 15:53:30 »

Borci a nechcete sem třeba napsat co to je přesně za řadič aby (když se to nechce vám) jsme si dohledali datasheet a zjistili co umí/neumí a pak adekvátně poradili?
Alternativně ServiceTag serveru.

jjrsk · « **Odpověď #3 kdy:** 20. 05. 2025, 17:05:05 »

Kristova noho...

Zfs stejne jako kazdej FS nad HW polem samozrejme bezet uplne normalne muze. Jen tak proste prijdes o nejaky ty ficury ktery to pripadne ma, kdyz si to pole ridi samo. Jinak to nema vubec sanci zjistit ze tam nejaky pole je.

Stejne tak prijdes o ficury toho radice, kdyz ho treba prepnes/preflashujes (pokud lze) do HBA rezimu.

Totez plati o btrfs.

ZFS je ovsem fs vyvijeny staromilci, a proto se to bude chovat dost podobne, jako kdybys k tomu HW radici pripojil misto disku dalsi HW radic s dalsim polem. Jinak receno, muze to mit pomerne flagrantni vykonovy dusledky.

A vzhledem tomu, ze to zjevne mas na hrani, tak si na tom udelej HWraid a neres kravoviny.

RDa · « **Odpověď #4 kdy:** 20. 05. 2025, 17:26:38 »

U 6 disku je to zcela jedno a pokud HW raid ma moznost pracovat se SSD (umi TRIM) tak pouzivej HW raid. Jinak radeji sw raid.. nez se ucit nejaky custom frikulinsky hw raid tool / klikatko.

Pokud bys mel disku 60, tak se oplati premyslet o ZFS.

Pro 600 disku je pak ZFS spise jedina moznost.

Reklama

Libor · « **Odpověď #5 kdy:** 20. 05. 2025, 23:22:38 »

Citace: jjrsk 20. 05. 2025, 17:05:05

Kristova noho...

Zfs stejne jako kazdej FS nad HW polem samozrejme bezet uplne normalne muze. Jen tak proste prijdes o nejaky ty ficury ktery to pripadne ma, kdyz si to pole ridi samo. Jinak to nema vubec sanci zjistit ze tam nejaky pole je.
...

Přímo v dokumentaci od Proxmoxu se píše (zvýrazněno vykřičníkem):

Citace

Do not use ZFS on top of a hardware RAID controller which has its own cache management. ZFS needs to communicate directly with the disks. An HBA adapter or something like an LSI controller flashed in “IT” mode is more appropriate.

Libor · « **Odpověď #6 kdy:** 20. 05. 2025, 23:33:03 »

Citace: hungarec 20. 05. 2025, 15:53:30

Borci a nechcete sem třeba napsat co to je přesně za řadič aby (když se to nechce vám) jsme si dohledali datasheet a zjistili co umí/neumí a pak adekvátně poradili?
Alternativně ServiceTag serveru.

U mě je to řadič 405-12091 : PERC H710 Adapter RAID Controller, 512MB NV Cache
Původně na tom běžel VMware ESXi, ale pro Proxmox je zřejmě tento řadič nevhodný.

Michal Šmucr · « **Odpověď #7 kdy:** 21. 05. 2025, 00:36:03 »

Citace: AltarSK 20. 05. 2025, 14:01:01

Ahojte.
Filozofická otázka.
Už je to nejaký čas čo som naposledy inštaloval server.
Dostal sa mi do rúk PowerEdge R660xs s 6x SSD diskami a ja silno premýšľam či na ňom spraviť RAID5 (prípadne RAID10) pole na radiči od servera alebo kvôli SSDčkám radšej spraviť RAID na ZFS v OS (Proxmoxe).
Neviem nikde nájsť info či raid na tomto serveri podporuje TRIM a potom mám obavy že v nakonfigurovanom "hw" raide neuvidím skutočný stav (Wear level) diskov.
Doteraz som mal vždy klasické hdd a raid som robil na radiči od servera. Ale teraz fakt neviem.

Máte nejaké odporúčania alebo užitočné myšlienky v tomto smere?

Nevím, jestli následující myšlenky budou užitečné, ale zkusím to.
Oba přístupy jak HW RAID, tak ZFS jsou zcela validní, jen bych to důrazně nedoručoval kombinovat (ZFS nad HW RAIDem).

Každý má své klady i zápory.
HW RAID je typicky jednodušší na nastavení a ovládání, má vcelku predikovatelné charakteristiky. Při určitých workloadech může mít citelně rychlejší zápisy. Ale dost to záleží na kontroléru, jeho případných vnitřních optimalizacích, kolik má cache, jestli je pod baterkou/supercapem atp.
Nevýhody už tu byly nadhozené. Valná většina z nich nepodporuje TRIM/UNMAP, pokud nejsou v nějakém specifickém non-RAID (pass-trhough) režimu. Také je tam s RAIDem často mizerný přístup k servisním datům o disku, takže je člověk odkázaný jen na diagnostiku, kterou provádí firmware kontroléru. Byť určité kontroléry se SAS/SATA mají podporu ve smartmontools (např. u LSI/Broadcom smartctl -d megaraid,1 ..). Ale třeba s NVMe je to většinou en-bloc špatné, a pokud se člověku hodí při provozu nějaká telemetrie, přístupy i do vendor logů, je to docela velká nevýhoda.
Na stranu druhou v praxi to nemusí být tak špatné, jak to na první pohled vypadá. Sice znám lidi/situace, kdy ta absence trimování vedla časem opravdu k výkonovým problémům, ale hodně záleží na workloadu i konkrétních discích. A naopak zas situace, kde to už léta běží bez znatelných problémů.
Např. máme jeden menší server, kde běží libvirt/qemu na RedHatu, středně vytížený (takový mix, vývoj, testování deploymentu, postgresy atp.), je tam OEM Trimode LSI/Broadcom RAID se supercapem, 4 serverová NVMe SSD v RAID 10. Standardní XFS, qcow s externími snapshoty (některé image jsou pre-alokované). A po cca třech letech se to chová pořád velmi dobře.

U toho ZFS přeskočím tu klasickou omáčku okolo (výhody CoW, integrovaný volume manager, snapshoty, checksumy atp).
Řekněme, že kontrolér bude v nějakém pass-trhu režimu, nebo se vymění za standardní SAS model. Bude přímý přístup do všech zařízení včetně trimování (a vlastnost ZFS je, že to nedělá ihned, ale bere ohled i na ostatní I/O operace).
Může to být pro čtení v určitých workloadech rychlejší, ARC může být velká a má typicky velmi dobrý hit-rate, takže se spousta souběžných operací u rychle se měnících dat "vyřídí" z cache.
Čímž se dostávám k možným stinným stránkám. Tou první je případná komplexita nastavení a tweakování. Můžete mít třeba dilema, jestli dát víc RAM tomu ARC nebo nechat samotným virtuálům. Testovat a případně si hrát s desítkami parametrů.
Při větší náročnosti na zápisy (IOPSy, latence) je nutná optimalizace, jak kvůli rychlosti samotné, tak i zbytečným zápisům. Je důležité si uvědomit, že jakmile aplikace pošle fsync() data se zároveň zapisují i do ZILu. A pokud tam běží virtuály, co mají thin provisioned disky na ZVOLech, tak "přes" ZIL běží ve výchozím stavu všechny zápisy. Tohle je pak přesně obecná situace, kdy se opravdu využije SLOG (dvě mirrorovaná SSD dedikovaná pro ZIL) a dává většinou smysl.
Nejsou potřeba úplně velké disky (stačí klidně 64 nebo 128 GB), ale měly by mít velkou výdrž (ideální na to byly onehdá serverové Optany, které nepotřebovaly žádný trim, GC jako normální NAND SSD).

Ještě se vrátím k tomu ZFS nad HW RAIDem. Opravdu ta doporučení nejsou zbůhdarma, několikrát jsem viděl přesně vzorec - recykluju starý HW RAID z práce, naperu tam ZFS, přijdu o data při nějakém výpadku, všude vyprávím - ZFS je na <'>

ZFS je od začátku vyvíjeno do prostředí s přímým přístupem do jednotlivých vdevů (zařízení), počítá s tím, že I/O operace projdou do HW přes blokovou vrstvu v daném pořadí bez toho, aby hardware dělal další reordering. Tohle je důležité i pro správné seskupování do jeho transakcí (TXG). Spoléhá na to, že když danému zařízení pošle flush (FUA), opravdu to, co doteď zapsal, bude persistentní.
Což sice automaticky neznamená, že tohle bude se všemi HW RAIDy problém, ale minimálně to nikdo netestuje.
Podobně tam můžou nastat problémy, když ZFS se svou proměnlivou velikost bloků nemůže být principiálně pořád zarovnané s RAID 5/6 stripem, takže to chodí blbě, dělá to víc I/O operací než musí atp.
U točivých disků zvlášť pak spolu také můžou hezky "bojovat" optimalizace na úrovni kontroléru a ZFS.

František Ryšánek · « **Odpověď #8 kdy:** 21. 05. 2025, 07:50:42 »

To vypadá, že by se mohlo jednat skutečně o MegaRAID.
Našel jsem návod na cross-flash IT firmwaru pro celou rodinu a k tomu vlákno na fóru, které obsahuje zajímavé komentáře na okraj, "když se nedaří" apod. Jenom jsem letmo líznul první asi dvě strany, a byl tam tip např. po/při cross-flashi odpojit baterku, jinak zůstanou v cache stará data RAIDového firmwaru což při bootu mate IT firmware...

redustin · « **Odpověď #9 kdy:** 21. 05. 2025, 08:08:56 »

IMO HW raid a ZFS řeší různé věci. Navíc ZFS umí většinu feature HW raidu, navíc nad nimi máš kontrolu.

Osobně bych zvolil ZFS nad SATA SSD v HBA režimu, protože mimo základních raidových funkcí poskytuje služby, které jsou velice užitečné. Snapshotování historie (používám sanoid) a zálohování send/receive (syncoid) je naprosto super. Možnost namontovat snapshot jako R/W klon, zkopírovat si z něj nechtěně smazaný/poškozený soubor/adresář - využívám bohužel dost často. Různé podadresáře mohou mít různé parametry (jako zfs filesystémy namontované na příslušné místo). I LZ4 komprese (v mém případě průměrně 2x více místa) je hodně užitečná a CPU výkonu je obvykle dostatek. SSDčka ocení, že nebudou moc zaplněná.

Disky mám v raid10. Mám ZFS i na pracovním kompu s jedním NVMe, pro vývojáře, který potřebuje šíbovat s mnohasetgigabajtovými databázemi pro lokální development, je snapshot DB slave -> clone + obfuskace pro devel velice užitečné, kdykoliv za pár sekund k dispozici aktuální data. Ale to samozřejmě není server use case.

Pokud by ten HW-raidový řadič nešel přepnout do HBA, pak za pár stovek koupit obyč JBOD LSI bez paměti se stejnými konektory, je jich plný ebay, i nové z Číny. Koupil jsem jich spoustu, nikdy žádný problém.

Samozřejmě výměna disku není tak pohodlná, jako přehodit disk v šuplíku, ale hot swap zůstane a těch pár příkazů při výměně disku mi nevadí, aspoň vím úplně přesně, co se děje. Navíc SSD je stejně potřeba měnit preventivně včas a nečekat, až se ušoupe k smrti v HW raidu, protože se pak hodně zpomaluje.

hungarec · « **Odpověď #10 kdy:** 21. 05. 2025, 08:19:52 »

Citace: Libor 20. 05. 2025, 23:33:03

U mě je to řadič 405-12091 : PERC H710 Adapter RAID Controller, 512MB NV Cache
Původně na tom běžel VMware ESXi, ale pro Proxmox je zřejmě tento řadič nevhodný.

Tento řadič nepodporuje transparentní TRIM na SSD do operačního systému. HBA to také není.
Alternativní možnost je jak psal F.Ryšánek to zkusit reflashnout na IT firmware - na vlastní riziko.
Nebo tam prostě udělat klasický HW RAID a použít megacli. Řadič si životnost těch disků ohlídá (zvlášť pokud jsou to "originál Dell") a k informacím se dostaneš, jen jinak...
Pokud se nedoporučuje používat ZFS nad HW RAIDem tak bych se toho držel a použil jiný filesystem pro hosta.

skskyper2 · « **Odpověď #11 kdy:** 21. 05. 2025, 08:25:40 »

Ako pise "hungarec", daj Service Tag alebo napis aky radic tam mas (PERC H965i, PERC H755, PERC H755N, PERC H355, HBA355i, HBA465) ...

Michal Šmucr · « **Odpověď #12 kdy:** 21. 05. 2025, 09:35:50 »

Citace: redustin 21. 05. 2025, 08:08:56

Osobně bych zvolil ZFS nad SATA SSD v HBA režimu, protože mimo základních raidových funkcí poskytuje služby, které jsou velice užitečné. Snapshotování historie (používám sanoid) a zálohování send/receive (syncoid) je naprosto super. Možnost namontovat snapshot jako R/W klon, zkopírovat si z něj nechtěně smazaný/poškozený soubor/adresář - využívám bohužel dost často. Různé podadresáře mohou mít různé parametry (jako zfs filesystémy namontované na příslušné místo). I LZ4 komprese (v mém případě průměrně 2x více místa) je hodně užitečná a CPU výkonu je obvykle dostatek. SSDčka ocení, že nebudou moc zaplněná.
...
Pokud by ten HW-raidový řadič nešel přepnout do HBA, pak za pár stovek koupit obyč JBOD LSI bez paměti se stejnými konektory, je jich plný ebay, i nové z Číny. Koupil jsem jich spoustu, nikdy žádný problém.

Zatím ještě nevíme, co má přesně tazatel za ty kontroléry a disky v Dell serveru. Jak už tu bylo zmíněné, v těchhle řadách šly asi čtyři modely z 11. a 12. generace PERCu. Používá to povětšinou OEM modely tri-modových LSI, SSD můžou být jak SAS, tak NVMe (pak nemusí být úplně snadné sehnat alternativní HBA za pár stovek).
Nehledal jsem u tohohle konkrétního modelu, ale jsou také dva základní formáty karet s kontroléry - normální low-profile PCIe a pak interní "front" modely, které nemají standardní konektory. Karta je kratší a pro připojení do základní desky se používá kabel s konektorem, co vypadá jako slim-sas, na druhé straně jsou pak konektory na zapojení do backplane.

A stran toho použití ZFS, ty zmíněné praktické výhody jsou vcelku zřejmé, zvlášť když se to používá přímo na ukládání do datasetů. Na druhou stranu pokud na serveru běží hypervizor a QEMU, tak ty čistě praktické rozdíly mezi ZFS a "normálním" filesystémem nemusí být tak markantní. Protože snapshoty, šifrování (přes image s LUKS), kompresi, trackování změn přes bitmapy na zálohování atp. umí i QEMU samo o sobě.
Samozřejmě můžeme zabřednout do technických detailů, co je rychlejší, jak snadné je používání (IMHO úplně nemusí, ale neznám Proxmox, je možné, že spousty těch složitostí to schová třeba při používání jejich Proxmox Backup).

Exceptions · « **Odpověď #13 kdy:** 21. 05. 2025, 10:00:48 »

HW Raid skryje před ZFS cenná data o chování disků a přidává falešné flushe, tj. zvyšuje se riziko ztráty dat.

Připojuji se k ostatním, raději koupit levnou JBOD kartu, pokud současná nebá podporu třeba pro HBA.

Qemu a jeho qcow sice poskytuje podobné funkce pokud jde o snapshoty, ale jeho stabilita a rychlost jsou naprosto tristní.

bobprasak · « **Odpověď #14 kdy:** 21. 05. 2025, 10:40:20 »

Pujdu proti proudu.

Pokud mam takovou konfiguraci a hw raid mi to podporuje pak nevidim jediny duvod proc se morit se ZFS. Udelal bych raid 5 plus mirror (pokud bych nechtel spare), lvm + fs dle meho vyberu a jdu dom. Snapshoty si resim na kvm/proxmoxu. ZFS je fajn pokud nemam slusny raid. Znackovej raid karty nejsou vubec zle, napriklad hpeckova smart array maji genezi snad 30 let jeste z dob compaqu a jsou to spolehlive karty, s vicemene stejnymi tooly a filosofii. Dell na tom bude imo podobne (nemam zkusenost) - zkus pohledat po forech.

Hardwarový RAID nebo ZFS?

AltarSK

Hardwarový RAID nebo ZFS?

Reklama

Libor

Re:hw/čip RAID vs. ZFS

hungarec

Re:Hardwarový RAID nebo ZFS?

jjrsk

Re:Hardwarový RAID nebo ZFS?

RDa

Re:Hardwarový RAID nebo ZFS?

Reklama

Libor

Re:Hardwarový RAID nebo ZFS?

Libor

Re:Hardwarový RAID nebo ZFS?

Michal Šmucr

Re:Hardwarový RAID nebo ZFS?

František Ryšánek

Re:Hardwarový RAID nebo ZFS?

redustin

Re:Hardwarový RAID nebo ZFS?

hungarec

Re:Hardwarový RAID nebo ZFS?

skskyper2

Re:Hardwarový RAID nebo ZFS?

Michal Šmucr

Re:Hardwarový RAID nebo ZFS?

Exceptions

Re:Hardwarový RAID nebo ZFS?

bobprasak

Re:Hardwarový RAID nebo ZFS?