SAS disky na serveru I/O error, testování

SAS disky na serveru I/O error, testování
« kdy: 04. 04. 2024, 18:08:30 »
Ahoj, vezmu to stručně - starší server, řadič LSI 9211 v režimu HBO, SAS disky.
Teď sem přikoupil várku bazarových 2TB a narážím na neskutečné haluze...
  • vyjedu smartctl, zjistím počet najetých hodin a neopravitelných chyb, smart hlásí "OK"
  • při spuštění fdisk mě to vykopne na I/O Error, v syslogu hromada chyb "protection error, dev sdi, sector 0 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 2"
  • OK, 4ks takto vadných jsem vyřadil, zbytek funguje normálně
  • ty co včera fungvaly dnes chci dát do pole a u většiny opět stejné příznaky - I/O error, v logu hromady chyb, SMART stále tvrdí OK

S nějakou chybovostí u použitého počítám, ale nerozumím tomu, proč jeden den se disk chová normálně a druhý den kolabuje. SMART se tváří v pořádku, čítače se nezměnily. Pokud vyměním disky za jiné (stejný model), vše funguje.
Na disk klidně můžu zapisovat natvrdo "dd bs=4M if=/dev/urandom of=/dev/sdn", ale nenastavím rozdělení, fdisk mě vykopne, sgdisk nadává "Warning! Read error 5; strange behavior now likely!"

Máte ještě nějaký nápad jak otestovat, nebo je tohle u vadných disků normální chování? Používám SAS už řádku let, ale s ničím podobným jsem se nesetkal.
PMD85 -> Didaktik Gama -> PC XT -> ... x86/x51/ARM
Basic -> Turbo Pascal -> C++ -> Turbo ASM -> C# -> PHP -> Bash -> Go :-)


Re:SAS disky na serveru I/O error, testování
« Odpověď #1 kdy: 04. 04. 2024, 19:21:18 »
Co je to za server, co je to za disky, co je to za software, jak je to připojeno, kolik to má natočeno, je to 4K/512e/mix, kdy přesně to hlásí chybu, drivery?
To je asi takový základ pro jakoukoliv radu.

Re:SAS disky na serveru I/O error, testování
« Odpověď #2 kdy: 04. 04. 2024, 20:15:07 »
Nemyslím si, že v tomto případě je nějak relevantní, ale budiž. Server Dell R510, disky jsou připojené přes backplane. Jde o mix SAS6 různých výrobců, převážně Seagate ST2000NM0001, ST2000NM0045, ST2000NM0155, dále Toshiba, IBM.. Disky mají natočeno od 5 do 37tis provozních hodin. Kromě SAS tam zapojuju jakékoliv SATA, které používám pro přenos dat, nebo off-line zálohy.
Nová instalace Debian 12 (no-gui), žádné externí ovladače. KDY to hlásí chybu? Při pokusu o přístup třeba spuštěním fdisk.

Každý disk nejdřív projedu smartctl -t long. Pokud nehlásí žádné problémy, zruším oddíly a nastavím novou GPT. Tady prošly všechny.
Před finálním přidáním do pole vytvořím testovací zfs pool, zaplním náhodnými daty, zkontroluju syslog, nechám projet zfs scrub a pokud je vše OK, nasadím to ostrého provozu. V tomto kroku neprošly dva disky. Co je ale podivnější, většina z těch co zvládly zátěžový test už nejde znovu přerozdělit a vykazují chyby - viz první post.
Je jedno do kterého slotu je dám, pořád stejné chyby. Naopak když vytáhnu ze skříně libovolný svůj starší disk a zapojím kamkoliv, všechno šlape. Pro mě je to záhada.
PMD85 -> Didaktik Gama -> PC XT -> ... x86/x51/ARM
Basic -> Turbo Pascal -> C++ -> Turbo ASM -> C# -> PHP -> Bash -> Go :-)

RDa

  • *****
  • 2 626
    • Zobrazit profil
    • E-mail
Re:SAS disky na serveru I/O error, testování
« Odpověď #3 kdy: 04. 04. 2024, 22:33:17 »
Bud tam mas problem v napajeni - ze ti server kolabuje pod diskovou zatezi.
Anebo jsi holt koupil vadne disky - ty stare veci proste takove nevhodne do produkce jsou.

luvar

  • ***
  • 238
    • Zobrazit profil
    • E-mail
Re:SAS disky na serveru I/O error, testování
« Odpověď #4 kdy: 05. 04. 2024, 07:03:26 »
Jeden výstrel do tmy: Niektoré disky podporujú šifrovanie (napríklad notebooky ThinkPad, diskové heslo pri štarte... https://github.com/jethrogb/lenovo-password ) a ak je disk zašifrovaný a nieje odomknutý (nejaký hdparm príkaz, ktorý mu pošle heslo), tak sa v systéme správa nedefinovane. Podľa počutia sa tvári ako blokové zariadenie s korektnou veľkosťou, ale nedovoluje čítanie ani zápis. Napríklad.

Váš prípad vypadá ale kus inak. Skúste namiesto zápisu (ten evidentne ide), čítanie. teda head -c 512 /dev/disk.


Re:SAS disky na serveru I/O error, testování
« Odpověď #5 kdy: 05. 04. 2024, 14:58:16 »
Jeden výstrel do tmy: Niektoré disky podporujú šifrovanie

AMEN pane kolego! Tohle je ono!

Jako opravdu se to chová dost podivně, například i to čtení z jednoho normálně jde, druhý vyhazuje I/O Error, ale natáhnul jsem si hdparm i sg3-utils a trochu si s tím hraju. Jediné jak to ověřit je provést totální formát přepisem, což ovšem bude chvíli trvat, tak to budu vědět až v pondělí.

Nějak mi vrtá v hlavě, jaký smysl má taková "ochrana", když jde na disk zapisovat a podle nálady i číst. Data to nijak nechrání, jen to svádí k tomu disk hodit do koše.

Každopádně děkuji  ;)
PMD85 -> Didaktik Gama -> PC XT -> ... x86/x51/ARM
Basic -> Turbo Pascal -> C++ -> Turbo ASM -> C# -> PHP -> Bash -> Go :-)

jjrsk

  • ****
  • 459
    • Zobrazit profil
Re:SAS disky na serveru I/O error, testování
« Odpověď #6 kdy: 05. 04. 2024, 15:03:18 »
..., jaký smysl má taková "ochrana",...

Rika se tomu placebo ... a presne stejne to funguje. Dodam ti disk, reknu ze sifruje, a ty ses v suchu a pohode se svymi kridylky ...

RDa

  • *****
  • 2 626
    • Zobrazit profil
    • E-mail
Re:SAS disky na serveru I/O error, testování
« Odpověď #7 kdy: 05. 04. 2024, 17:32:05 »
A neni to jenom typicky problem 520/528 byte sektoru vs 512 ktere jsou vyzadovany v Linuxu?
sg-format nebo dmesg tady napovi velice rychle. Zmenit to na vetsine disku jde, ale je par modelu ktere to neumoznuji a jsou vesmes jenom tezitka.

Re:SAS disky na serveru I/O error, testování
« Odpověď #8 kdy: 05. 04. 2024, 19:14:51 »
Já se koukal nedávno na nějaký článek o šifrování apod.
Tam byly termíny HPA a DCO.
Netuším zda ti to konkrétně pomůže, ale dávám to do placu.

Re:SAS disky na serveru I/O error, testování
« Odpověď #9 kdy: 06. 04. 2024, 13:32:31 »
Tak ověřeno, zabralo:
sg_format —format /dev/sdX
jen to chvíli trvá. Všechno se už chová korektně, žádné chyby, příznak ochrany zmizel  :D
PMD85 -> Didaktik Gama -> PC XT -> ... x86/x51/ARM
Basic -> Turbo Pascal -> C++ -> Turbo ASM -> C# -> PHP -> Bash -> Go :-)