Fórum Root.cz

Hlavní témata => Server => Téma založeno: noonenoone 07. 02. 2026, 17:25:40

Název: Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: noonenoone 07. 02. 2026, 17:25:40
Ahoj,

mám Dell R630 s řadičem LSI SAS3008 / HBA330 (HBA/IT).
Na řadiči jsou:

2× ADATA SU650 – systém, mdadm RAID1

2× Kingston DC600 – ZFS mirror, na něm běží KVM VM

Vše je připojeno přes stejný backplane, kabeláž a stejný HBA.

V noci přišel alert ze smartd.

V dmesg jsou task aborty / timeouty / reset zařízení (logy přikládám).

Ráno byly spadlé VM, přestože jejich disky jsou na ZFS nad Kingston DC600, které jsou SMART čisté. Společné mají pouze řadič a backplane.

Otázka:
Je možné, že nestabilní SATA SSD (ADATA) způsobí error recovery na SAS3008 (aborty, PHY reset, COMRESET), během kterého se zablokuje I/O na řadiči, což sekundárně:

zdrží ZFS,

způsobí I/O timeouty ve VM,

a povede až k pádu VPS (XFS error / panic)?

Dává smysl, že řešením je výměna ADATA za enterprise SSD (např. Kingston DC600) bez nutnosti dalšího řadiče?

Díky za potvrzení / vyvrácení.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: a6b 07. 02. 2026, 19:46:31
jak se v dmesg u disku neco furt opakuje dokola, tak to bude chyba.
to bych rekl za sebe a taky ai rika, ze nejaky disk odchazi do vecnych lovist.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: Pavel Rauš 07. 02. 2026, 22:38:45
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: noonenoone 08. 02. 2026, 07:33:29
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: noonenoone 08. 02. 2026, 08:16:14
jak se v dmesg u disku neco furt opakuje dokola, tak to bude chyba.
to bych rekl za sebe a taky ai rika, ze nejaky disk odchazi do vecnych lovist.

Díky, prošel jsem smart výsledky a byl to reset, takže disky jsou asi v pořádku. Když tedy opominu že resetovaly řadič.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: RDa 08. 02. 2026, 13:48:06
Pokud neplanujete 10 disku tak bych se toho expanderu zbavil. A nejspis i SAS radice, je to zbytecnost pokud to mate v HBA rezimu a se SATA disky, v SW raidu nebo advanced FS (zfs,btrfs).

Ta chyba v dmesg je zabugovany driver/firmware (dalsi duvod se zbavit toho radice), muzete zkusit zjistit zda se to opravilo mezi vasi verzi jadra (jakou mate?) a momentalne aktualni verzi.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: noonenoone 08. 02. 2026, 14:45:49
Pokud neplanujete 10 disku tak bych se toho expanderu zbavil. A nejspis i SAS radice, je to zbytecnost pokud to mate v HBA rezimu a se SATA disky, v SW raidu nebo advanced FS (zfs,btrfs).

Ta chyba v dmesg je zabugovany driver/firmware (dalsi duvod se zbavit toho radice), muzete zkusit zjistit zda se to opravilo mezi vasi verzi jadra (jakou mate?) a momentalne aktualni verzi.

Těch serverů mám čerstvě několik. Mám 6.12.0-55.39.1.el10_0.x86_64.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: Pavel Rauš 08. 02. 2026, 16:13:32
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci

Samsungové datacenter jsou obvykle v pohodě i ty SATA. Ale lepší je mít SAS.

Hele a takový hint. Vypni ten smartd, on občas dokáže dělat fakt divný věci.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: noonenoone 08. 02. 2026, 17:47:42
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci

Samsungové datacenter jsou obvykle v pohodě i ty SATA. Ale lepší je mít SAS.

Hele a takový hint. Vypni ten smartd, on občas dokáže dělat fakt divný věci.

Díky za reakci. Tím myslíš, že by se mohly ty chyby projevit jenom pokud je smartd zapnuty resp. provádí testy? Že by je jako odhalil, jinak by k  resetu řadiče nejspíš nedošlo?
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: Pavel Rauš 08. 02. 2026, 19:21:39
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci

Samsungové datacenter jsou obvykle v pohodě i ty SATA. Ale lepší je mít SAS.

Hele a takový hint. Vypni ten smartd, on občas dokáže dělat fakt divný věci.

Díky za reakci. Tím myslíš, že by se mohly ty chyby projevit jenom pokud je smartd zapnuty resp. provádí testy? Že by je jako odhalil, jinak by k  resetu řadiče nejspíš nedošlo?

Ano, už jsem několikrát zažil, že smartd dělal reset řadiče nebo chyby v komunikaci. To časté dotazování na stav a pouštění testů je občas problém. Disk podle dat cos poslal vypadá v pořádku, takže bych hledal jinde (smartd, kabel, backplane, řadič).
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: vatavata 09. 02. 2026, 02:26:08
Já mám podobnou konfiguraci: řadič LSI SAS9223-8i / IT, SAS backplane 8 pozic, ovšem na B550 s Ryzenem 9 5900X. Hypervizor (Debian) jede na NVMe disku. Mám na tom backplane jedno mdadm R6 pole 6xSSD (různé, střední a vyšší třída, všechno SATA) a bylo tam další pole 2xHDD 5TB (Seagate), to bylo v mirroru. Jeden z těch HDD odešel a z degradovaného pole jsem data zkopírovala na volný logický disk na R6 poli. Špatný HDD jsem s R1 pole odebrala (mdadm -remove) a fyzicky jej vyndala, pole jsem umoutla ale v systému jej nechala, že to zruším později - páč to potřebuje restart jednoho z VM. Server pak nějakou dobu jel bez problémů. Až po týdenním smartd testu se mi složil celý server (všechna CPU jádra měly šílený wait load). Nešly nebo skoro nešly všechny KVM virtuály, jak se nemohly dostat k datům - zakouslo se to zjevně na IO operacích - mdadm se o něco snažil na degradovaném R1 a ovlivnilo to i provoz R6 pole, na kterém běžel souběžně vlastní test.
Po restartu serveru a po úplném odstavení R1 pole to jede už skoro rok bez problémů, logy mi víc než zhroucení IO systému tehdy neřekly, začátkem potíží bylo ale spuštění smartd testů a degradované pole. Možná by to HBA330 dal, protože je rychlejší, možná šlo o podobnou situaci - různá pole v různém stavu na stejném řadiči pod testem. Vedle toho mám v témže serveru ještě další 4SSD v R5 poli, jednotlivé disky jsou na SATA nudlích, a tohle pole jelo dál.
Uvolněné pozice jsem chtěla použít pro další SSD pro přidání do stávajícího R6 pole, ale zdražení SSD mi plány překazilo. Další pole na tentýž řadič už dávat nechci.   
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: noonenoone 09. 02. 2026, 08:12:10
Já mám podobnou konfiguraci: řadič LSI SAS9223-8i / IT, SAS backplane 8 pozic, ovšem na B550 s Ryzenem 9 5900X. Hypervizor (Debian) jede na NVMe disku. Mám na tom backplane jedno mdadm R6 pole 6xSSD (různé, střední a vyšší třída, všechno SATA) a bylo tam další pole 2xHDD 5TB (Seagate), to bylo v mirroru. Jeden z těch HDD odešel a z degradovaného pole jsem data zkopírovala na volný logický disk na R6 poli. Špatný HDD jsem s R1 pole odebrala (mdadm -remove) a fyzicky jej vyndala, pole jsem umoutla ale v systému jej nechala, že to zruším později - páč to potřebuje restart jednoho z VM. Server pak nějakou dobu jel bez problémů. Až po týdenním smartd testu se mi složil celý server (všechna CPU jádra měly šílený wait load). Nešly nebo skoro nešly všechny KVM virtuály, jak se nemohly dostat k datům - zakouslo se to zjevně na IO operacích - mdadm se o něco snažil na degradovaném R1 a ovlivnilo to i provoz R6 pole, na kterém běžel souběžně vlastní test.
Po restartu serveru a po úplném odstavení R1 pole to jede už skoro rok bez problémů, logy mi víc než zhroucení IO systému tehdy neřekly, začátkem potíží bylo ale spuštění smartd testů a degradované pole. Možná by to HBA330 dal, protože je rychlejší, možná šlo o podobnou situaci - různá pole v různém stavu na stejném řadiči pod testem. Vedle toho mám v témže serveru ještě další 4SSD v R5 poli, jednotlivé disky jsou na SATA nudlích, a tohle pole jelo dál.
Uvolněné pozice jsem chtěla použít pro další SSD pro přidání do stávajícího R6 pole, ale zdražení SSD mi plány překazilo. Další pole na tentýž řadič už dávat nechci.

Vypnutí smartd podle mě problém neřeší, jen oddálí – smartd chybu nevytváří, ale spouští dlouhé blokující operace (zejména extended testy), které u HBA IT + problematického disku vyvolají error recovery a zablokují celý řadič. Jaké disky jsi prosím používala (byly enterprise s dobrou podporou smart)?
R.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: noonenoone 09. 02. 2026, 08:13:14
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci

Samsungové datacenter jsou obvykle v pohodě i ty SATA. Ale lepší je mít SAS.

Hele a takový hint. Vypni ten smartd, on občas dokáže dělat fakt divný věci.

Díky za reakci. Tím myslíš, že by se mohly ty chyby projevit jenom pokud je smartd zapnuty resp. provádí testy? Že by je jako odhalil, jinak by k  resetu řadiče nejspíš nedošlo?

Ano, už jsem několikrát zažil, že smartd dělal reset řadiče nebo chyby v komunikaci. To časté dotazování na stav a pouštění testů je občas problém. Disk podle dat cos poslal vypadá v pořádku, takže bych hledal jinde (smartd, kabel, backplane, řadič).

Zatím jsem vypnul smartd pro ty problémové disky. Stalo se to podruhé asi po týdnu. Než přijdou nové disky tak to snad vydrží.
Název: Re:Havárie serveru Dell R630 s řadičem HBA330
Přispěvatel: noonenoone 09. 02. 2026, 08:15:09
Pokud neplanujete 10 disku tak bych se toho expanderu zbavil. A nejspis i SAS radice, je to zbytecnost pokud to mate v HBA rezimu a se SATA disky, v SW raidu nebo advanced FS (zfs,btrfs).

Ta chyba v dmesg je zabugovany driver/firmware (dalsi duvod se zbavit toho radice), muzete zkusit zjistit zda se to opravilo mezi vasi verzi jadra (jakou mate?) a momentalne aktualni verzi.

Ještě jednou moc děkuji za pomoc. Zatím jsem vypnul smartd, který mohl celý řetězec spustit a budu řešit výměnu disků.