Havárie serveru Dell R630 s řadičem HBA330

Ahoj,

mám Dell R630 s řadičem LSI SAS3008 / HBA330 (HBA/IT).
Na řadiči jsou:

2× ADATA SU650 – systém, mdadm RAID1

2× Kingston DC600 – ZFS mirror, na něm běží KVM VM

Vše je připojeno přes stejný backplane, kabeláž a stejný HBA.

V noci přišel alert ze smartd.

V dmesg jsou task aborty / timeouty / reset zařízení (logy přikládám).

Ráno byly spadlé VM, přestože jejich disky jsou na ZFS nad Kingston DC600, které jsou SMART čisté. Společné mají pouze řadič a backplane.

Otázka:
Je možné, že nestabilní SATA SSD (ADATA) způsobí error recovery na SAS3008 (aborty, PHY reset, COMRESET), během kterého se zablokuje I/O na řadiči, což sekundárně:

zdrží ZFS,

způsobí I/O timeouty ve VM,

a povede až k pádu VPS (XFS error / panic)?

Dává smysl, že řešením je výměna ADATA za enterprise SSD (např. Kingston DC600) bez nutnosti dalšího řadiče?

Díky za potvrzení / vyvrácení.
« Poslední změna: Dnes v 17:32:56 od noonenoone »


a6b

  • ***
  • 223
    • Zobrazit profil
    • E-mail
Re:Havárie serveru Dell R630 s řadičem HBA330
« Odpověď #1 kdy: Dnes v 19:46:31 »
jak se v dmesg u disku neco furt opakuje dokola, tak to bude chyba.
to bych rekl za sebe a taky ai rika, ze nejaky disk odchazi do vecnych lovist.