Havárie serveru Dell R630 s řadičem HBA330

Havárie serveru Dell R630 s řadičem HBA330
« kdy: 07. 02. 2026, 17:25:40 »
Ahoj,

mám Dell R630 s řadičem LSI SAS3008 / HBA330 (HBA/IT).
Na řadiči jsou:

2× ADATA SU650 – systém, mdadm RAID1

2× Kingston DC600 – ZFS mirror, na něm běží KVM VM

Vše je připojeno přes stejný backplane, kabeláž a stejný HBA.

V noci přišel alert ze smartd.

V dmesg jsou task aborty / timeouty / reset zařízení (logy přikládám).

Ráno byly spadlé VM, přestože jejich disky jsou na ZFS nad Kingston DC600, které jsou SMART čisté. Společné mají pouze řadič a backplane.

Otázka:
Je možné, že nestabilní SATA SSD (ADATA) způsobí error recovery na SAS3008 (aborty, PHY reset, COMRESET), během kterého se zablokuje I/O na řadiči, což sekundárně:

zdrží ZFS,

způsobí I/O timeouty ve VM,

a povede až k pádu VPS (XFS error / panic)?

Dává smysl, že řešením je výměna ADATA za enterprise SSD (např. Kingston DC600) bez nutnosti dalšího řadiče?

Díky za potvrzení / vyvrácení.
« Poslední změna: 07. 02. 2026, 17:32:56 od noonenoone »


a6b

  • ***
  • 224
    • Zobrazit profil
    • E-mail
Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #1 kdy: 07. 02. 2026, 19:46:31 »
jak se v dmesg u disku neco furt opakuje dokola, tak to bude chyba.
to bych rekl za sebe a taky ai rika, ze nejaky disk odchazi do vecnych lovist.

Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #2 kdy: 07. 02. 2026, 22:38:45 »
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #3 kdy: 08. 02. 2026, 07:33:29 »
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci

Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #4 kdy: 08. 02. 2026, 08:16:14 »
jak se v dmesg u disku neco furt opakuje dokola, tak to bude chyba.
to bych rekl za sebe a taky ai rika, ze nejaky disk odchazi do vecnych lovist.

Díky, prošel jsem smart výsledky a byl to reset, takže disky jsou asi v pořádku. Když tedy opominu že resetovaly řadič.


RDa

  • *****
  • 3 203
    • Zobrazit profil
    • E-mail
Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #5 kdy: 08. 02. 2026, 13:48:06 »
Pokud neplanujete 10 disku tak bych se toho expanderu zbavil. A nejspis i SAS radice, je to zbytecnost pokud to mate v HBA rezimu a se SATA disky, v SW raidu nebo advanced FS (zfs,btrfs).

Ta chyba v dmesg je zabugovany driver/firmware (dalsi duvod se zbavit toho radice), muzete zkusit zjistit zda se to opravilo mezi vasi verzi jadra (jakou mate?) a momentalne aktualni verzi.

Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #6 kdy: 08. 02. 2026, 14:45:49 »
Pokud neplanujete 10 disku tak bych se toho expanderu zbavil. A nejspis i SAS radice, je to zbytecnost pokud to mate v HBA rezimu a se SATA disky, v SW raidu nebo advanced FS (zfs,btrfs).

Ta chyba v dmesg je zabugovany driver/firmware (dalsi duvod se zbavit toho radice), muzete zkusit zjistit zda se to opravilo mezi vasi verzi jadra (jakou mate?) a momentalne aktualni verzi.

Těch serverů mám čerstvě několik. Mám 6.12.0-55.39.1.el10_0.x86_64.

Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #7 kdy: 08. 02. 2026, 16:13:32 »
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci

Samsungové datacenter jsou obvykle v pohodě i ty SATA. Ale lepší je mít SAS.

Hele a takový hint. Vypni ten smartd, on občas dokáže dělat fakt divný věci.

Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #8 kdy: 08. 02. 2026, 17:47:42 »
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci

Samsungové datacenter jsou obvykle v pohodě i ty SATA. Ale lepší je mít SAS.

Hele a takový hint. Vypni ten smartd, on občas dokáže dělat fakt divný věci.

Díky za reakci. Tím myslíš, že by se mohly ty chyby projevit jenom pokud je smartd zapnuty resp. provádí testy? Že by je jako odhalil, jinak by k  resetu řadiče nejspíš nedošlo?

Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #9 kdy: 08. 02. 2026, 19:21:39 »
Pokud je tam backplane s expanderem, tak je scénář kdy to jeden SATA disk sestřelí docela možný. Na SAS expanderu jsou obecně SATA disky trošku loterie.

Pokud se nepletu, tak 10x2.5” R630 má backplane s expanderem a 8 disková bez.

Ano, je tam 10x2.5'' pozic, takže asi to je backplane s expanderem. Myslíš tedy, že by mohla změna disků za "opravdový" (kinston DC600) pomoc? Měl jsem v plánu tam strkat SATA levné disky, ale asi to přehodnotím. Máš třeba nějaké disky vyzkoušené?

Děkuju za reakci

Samsungové datacenter jsou obvykle v pohodě i ty SATA. Ale lepší je mít SAS.

Hele a takový hint. Vypni ten smartd, on občas dokáže dělat fakt divný věci.

Díky za reakci. Tím myslíš, že by se mohly ty chyby projevit jenom pokud je smartd zapnuty resp. provádí testy? Že by je jako odhalil, jinak by k  resetu řadiče nejspíš nedošlo?

Ano, už jsem několikrát zažil, že smartd dělal reset řadiče nebo chyby v komunikaci. To časté dotazování na stav a pouštění testů je občas problém. Disk podle dat cos poslal vypadá v pořádku, takže bych hledal jinde (smartd, kabel, backplane, řadič).