Náhodný restart CentOS 5.5

Náhodný restart CentOS 5.5
« kdy: 19. 10. 2011, 22:23:40 »
Zdravím, provozujeme server s CentOS 5.5. Jednou za čas (obvykle měsíc až dva) se bez zjevné příčiny samovolně restartne (rebootuje). Vždy je to ve večerních hodinách, kdy k serveru nikdo nemá fyzický přístup. Z logů není vůbec nic patrné. V messages dlouho před rebootem není zalogována žádná událost, ale to je docela běžný stav (server není tak často využíván). Jedná se o rackový HP DL380G6. V systému jsou nainstalovány i ovladače a další podpůrný SW od HP. V žádném dostupném logu není zmínka o možném přehřátí nebo jiném hw problému.
Chápu, že mi asi nikdo takhle neřekne, v čem je problém. Spíše bych uvítal radu jak postupovat při zjišťování příčiny. Jediné, co jsem objevil je ve výstupu z "last": reboot  system boot verze jádra a datum události.
Předem díky za nápady.
« Poslední změna: 19. 10. 2011, 23:52:24 od Petr Krčmář »


Nassir

Re: Náhodný restart CentOS 5.5
« Odpověď #1 kdy: 20. 10. 2011, 00:49:35 »
Nam sa par rokov dozadu podobne spraval freeBSD server. Kazdy tyzden v noci sa spustil bezpecnostny test, ktory hladal napriklad suid subory a subory bez existujucej skupiny a podobne. Cele to bezalo na sw raide a v spolupraci s nasim diskovym radicom to obcas pri plnom vytazeni hodilo reset. Koli chybe disku sa nic nezapisalo.

Skus skontrolovat filesystem a urob niekolkovlaknovy zatazovy test disku.

No a ked sme pri tych zazracnych chybach, tak prave minuly mesiac sme vyriesili problem s desktopom. Nahodne BSOD aspon trikrat denne, vetsinou pri nulovej zatazi - ked sa par sekund nic nerobilo so systemom. Mesiac stary image disku pada rovnako. Memtest 12 hodin ok, prime95 cez vsetky jadra 6 hodin stable. Defragmentacia, diskovy image a rozbalovanie 180000 suborov z archivu naraz - bez problemov. Minutu nato dam spustit firefox a pocas nacitania BSOD. V linuxe stabilne. Postupne vymenena doska, pamete a disk. Vymeneny zdroj. Stale pada, teraz uz casto 10 sekund po nabednuti windows. Cista instalacia vydrzala kludnu pracu dve hodiny, nasledne zacala padat tiez. Nova instalacia, tentokrat ziadne aktualizacia, len instalacia starych ovladacov. Po hodine pada znova.
Ano, je to tak - po vymene procesoru je to odrazu v poriadku.

Poucenie je len jedno - ak si hw povie, ze sa mu nepaci roh miestnosti v ktorej stoji, tak je mu jedno ci je pod zatazou, alebo sa nudi. Treba si pustit kludnu muziku a skusat dalej.

Martin F

Re: Náhodný restart CentOS 5.5
« Odpověď #2 kdy: 20. 10. 2011, 08:47:31 »
Kontroloval jste i logy samotneho serveru jeho vnitrniho managementu na ILO karte?

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re: Náhodný restart CentOS 5.5
« Odpověď #3 kdy: 20. 10. 2011, 11:28:34 »
Neslo by si nastavit logovani na jiny stroj na siti a doufat, ze se tam neco protlaci, nez se to restartuje?

Marek

Re: Náhodný restart CentOS 5.5
« Odpověď #4 kdy: 20. 10. 2011, 13:23:07 »
Skuste v BIOS-e najst polozku ASR (Automated System Recovery) a vypnut ju. Mne sa podobne restartoval server, ked jeden z agentov hp-snmp zblbol.


Re: Náhodný restart CentOS 5.5
« Odpověď #5 kdy: 20. 10. 2011, 23:08:50 »
Nassir: Na tomto serveru je hw raid controller HP SmartArray P410 (SAS disky). Ovladače jsou jsou přímo od HP (tedy novější než ty distribuční). V žádném logu ani HP diagnostikách není vidět žádný problém.

Martin F: Ano, myslím, že se to jmenuje HP Integrated Management Log. Z poslední doby (cca 7 měsíců), tam není žádný záznam. Předcházející záznamy odpovídají provedeným úkonům.

JardaP: To by určitě šlo, ale myslíte, že se tam něco zaloguje? Jak jsem psal v předchozím příspěvku, ten server je využíván jen nárazově, tzn. že jsou dny, kdy v messages je pouze záznam o spuštění logrotate. Ale asi to vyzkouším nastavit, používáme syslog-ng a z některých serverů agregujeme logy na jeden (z toho problémového ne :-)).

Marek: Ano, toto jsem udělal po posledním restartu, tak uvidíme:-). Ale zase jsem si říkal, že pokud by se ASR aktivovalo, tak by o tom musel být záznam v IML.

Re: Náhodný restart CentOS 5.5
« Odpověď #6 kdy: 20. 10. 2011, 23:18:45 »
Ještě mě napadlo udělat nějaké ty zátěžové testy HW, jak o tom psal i Nassir. Asi začít testy pamětí (zatím jsem neprovedl, protože i když není server pravidelně vytěžován, nemohu jej jen tak na den odstavit, snad to půjde v příštím servisním okně).
Další věc jsou core dumpy. Teď jsem to začal studovat. Jen se trochu obávám, že i když to chytnu, tak z toho výstupu já moc nevyčtu:-(.
Uvítám každý dobrý nápad. Díky

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re: Náhodný restart CentOS 5.5
« Odpověď #7 kdy: 21. 10. 2011, 20:05:10 »
JardaP: To by určitě šlo, ale myslíte, že se tam něco zaloguje?

To tedy nevim. Napsal jsem, ze musite doufat. Zalezi na tom, co a v jakem poradi pada. Hlavne nezapomente napsat, jestli na neco prijdete a jak to dopadlo. Je to napinave a lidi casto zapominaji napsat, kdo byl vrah a clovek se pak dohaduje, jestli to byl zahradnik nebo kdo. :-)