Server občas přestane komunikovat

Server občas přestane komunikovat
« kdy: 08. 03. 2020, 10:49:04 »
Ahoj všem, prosím o radu, mám PC s CentOS jako homeserver. Začalo se mi ale stávat to, že se mi po několika dnech od spuštění nedaří probudit monitor (stisknutím libovolné klávesnice ani jinak) , ten píše "no signal".

Další zvláštnost je taková, že při běžném stavu se dá krátce stiknout power button a PC se uspí, dalším kliknutím se zase probudí. V popsaném případě, kdy PC s monitorem nekomunikuje (přestože běží) krátké stiknutí power button nefunguje a je nutné tlačítko podržet dokud se na tvrdo nevypne, čímž tak jednou z 5 pokusů zničím XFS.

Prosím, jak to diagnostikovat? Děkuji za tipy.
« Poslední změna: 08. 03. 2020, 11:25:22 od Petr Krčmář »


Re:Občas přestane komunikovat
« Odpověď #1 kdy: 08. 03. 2020, 10:53:45 »
Jaká je v tom grafika?

Re:Server občas přestane komunikovat
« Odpověď #2 kdy: 08. 03. 2020, 12:14:38 »
Zřejmě tedy integrovanou. Ještě dodám důležitou informaci, že jsem vypozoroval, že v ten čas to vždy indikátor (nevím jistě čeho) svítí trvale, viz foto.

Teď přestože s monitorem komunikuje, tak chvílema nereaguje na klávesnici a myš. Přestože load je obvykle mezi 1.0 a 4.0, což je hádám přijatelné, průměrné využití CPU je 20 % nárazově 80 %, 32 bitový systém RAM není problém a IO max 1mbps.

[root@Dell-Optiplex7010 firefox]# lshw -C display
  *-display                 
       description: VGA compatible controller
       product: Xeon E3-1200 v2/3rd Gen Core processor Graphics Controller
       vendor: Intel Corporation
       physical id: 2
       bus info: pci@0000:00:02.0
       version: 09
       width: 64 bits
       clock: 33MHz
       capabilities: msi pm vga_controller bus_master cap_list rom
       configuration: driver=i915 latency=0
       resources: irq:27 memory:f7800000-f7bfffff memory:e0000000-efffffff ioport:f000(size=64) memory:c0000-dffff

[root@Dell-Optiplex7010 firefox]# cat /proc/cpuinfo
processor   : 0
vendor_id   : GenuineIntel
cpu family   : 6
model      : 58
model name   : Intel(R) Core(TM) i3-3240 CPU @ 3.40GHz
stepping   : 9
microcode   : 0x21
cpu MHz      : 3201.646
cache size   : 3072 KB
physical id   : 0
siblings   : 4
core id      : 0
cpu cores   : 2
apicid      : 0
initial apicid   : 0
fpu      : yes
fpu_exception   : yes
cpuid level   : 13
wp      : yes
flags      : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm pcid sse4_1 sse4_2 popcnt tsc_deadline_timer xsave avx f16c lahf_lm cpuid_fault epb pti ssbd ibrs ibpb stibp tpr_shadow vnmi flexpriority ept vpid fsgsbase smep erms xsaveopt dtherm arat pln pts md_clear flush_l1d
bugs      : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds
bogomips   : 6784.31
clflush size   : 64
cache_alignment   : 64
address sizes   : 36 bits physical, 48 bits virtual
power management:

processor   : 1
vendor_id   : GenuineIntel
cpu family   : 6
model      : 58
model name   : Intel(R) Core(TM) i3-3240 CPU @ 3.40GHz
stepping   : 9
microcode   : 0x21
cpu MHz      : 3384.745
cache size   : 3072 KB
physical id   : 0
siblings   : 4
core id      : 1
cpu cores   : 2
apicid      : 2
initial apicid   : 2
fpu      : yes
fpu_exception   : yes
cpuid level   : 13
wp      : yes
flags      : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm pcid sse4_1 sse4_2 popcnt tsc_deadline_timer xsave avx f16c lahf_lm cpuid_fault epb pti ssbd ibrs ibpb stibp tpr_shadow vnmi flexpriority ept vpid fsgsbase smep erms xsaveopt dtherm arat pln pts md_clear flush_l1d
bugs      : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds
bogomips   : 6784.31
clflush size   : 64
cache_alignment   : 64
address sizes   : 36 bits physical, 48 bits virtual
power management:

processor   : 2
vendor_id   : GenuineIntel
cpu family   : 6
model      : 58
model name   : Intel(R) Core(TM) i3-3240 CPU @ 3.40GHz
stepping   : 9
microcode   : 0x21
cpu MHz      : 2462.515
cache size   : 3072 KB
physical id   : 0
siblings   : 4
core id      : 0
cpu cores   : 2
apicid      : 1
initial apicid   : 1
fpu      : yes
fpu_exception   : yes
cpuid level   : 13
wp      : yes
flags      : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm pcid sse4_1 sse4_2 popcnt tsc_deadline_timer xsave avx f16c lahf_lm cpuid_fault epb pti ssbd ibrs ibpb stibp tpr_shadow vnmi flexpriority ept vpid fsgsbase smep erms xsaveopt dtherm arat pln pts md_clear flush_l1d
bugs      : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds
bogomips   : 6784.31
clflush size   : 64
cache_alignment   : 64
address sizes   : 36 bits physical, 48 bits virtual
power management:

processor   : 3
vendor_id   : GenuineIntel
cpu family   : 6
model      : 58
model name   : Intel(R) Core(TM) i3-3240 CPU @ 3.40GHz
stepping   : 9
microcode   : 0x21
cpu MHz      : 2982.469
cache size   : 3072 KB
physical id   : 0
siblings   : 4
core id      : 1
cpu cores   : 2
apicid      : 3
initial apicid   : 3
fpu      : yes
fpu_exception   : yes
cpuid level   : 13
wp      : yes
flags      : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm pcid sse4_1 sse4_2 popcnt tsc_deadline_timer xsave avx f16c lahf_lm cpuid_fault epb pti ssbd ibrs ibpb stibp tpr_shadow vnmi flexpriority ept vpid fsgsbase smep erms xsaveopt dtherm arat pln pts md_clear flush_l1d
bugs      : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds
bogomips   : 6784.31
clflush size   : 64
cache_alignment   : 64
address sizes   : 36 bits physical, 48 bits virtual
power management:

[root@Dell-Optiplex7010 firefox]#


Re:Server občas přestane komunikovat
« Odpověď #3 kdy: 08. 03. 2020, 17:18:45 »
Ve /var/log/dmesg vidíš nějaké anomálie?

Re:Server občas přestane komunikovat
« Odpověď #4 kdy: 08. 03. 2020, 17:40:18 »
Během té doby co nereagoval, tak vůbec v logách nic není, Zřejmě cca. v 9:41 nějak zamrznul a 9:49 sem si toho všiml a podržel sem power button, dokud se na tvrdo nechcípnul a hned v 09:49 logy navázali, protože se tentokrát nepodělal XFS.

Kód: [Vybrat]
Mar  8 09:31:05 Dell-Optiplex7010 systemd[1]: Started Session 12696 of user root.
Mar  8 09:31:06 Dell-Optiplex7010 systemd[1]: Started Session 12697 of user root.
Mar  8 09:32:05 Dell-Optiplex7010 systemd[1]: Started Session 12698 of user root.
Mar  8 09:32:05 Dell-Optiplex7010 systemd[1]: Started Session 12699 of user root.
Mar  8 09:33:03 Dell-Optiplex7010 systemd[1]: Started Session 12700 of user root.
Mar  8 09:33:03 Dell-Optiplex7010 systemd[1]: Started Session 12701 of user root.
Mar  8 09:34:02 Dell-Optiplex7010 systemd[1]: Started Session 12703 of user root.
Mar  8 09:34:02 Dell-Optiplex7010 systemd[1]: Started Session 12702 of user root.
Mar  8 09:35:01 Dell-Optiplex7010 systemd[1]: Started Session 12705 of user root.
Mar  8 09:35:01 Dell-Optiplex7010 systemd[1]: Started Session 12704 of user root.
Mar  8 09:36:02 Dell-Optiplex7010 systemd[1]: Started Session 12707 of user root.
Mar  8 09:36:02 Dell-Optiplex7010 systemd[1]: Started Session 12706 of user root.
Mar  8 09:37:04 Dell-Optiplex7010 systemd[1]: Started Session 12709 of user root.
Mar  8 09:37:04 Dell-Optiplex7010 systemd[1]: Started Session 12708 of user root.
Mar  8 09:38:01 Dell-Optiplex7010 systemd[1]: Started Session 12711 of user root.
Mar  8 09:38:01 Dell-Optiplex7010 systemd[1]: Started Session 12710 of user root.
Mar  8 09:39:02 Dell-Optiplex7010 systemd[1]: Started Session 12712 of user root.
Mar  8 09:39:02 Dell-Optiplex7010 systemd[1]: Started Session 12713 of user root.
Mar  8 09:40:04 Dell-Optiplex7010 systemd[1]: Started Session 12715 of user root.
Mar  8 09:40:06 Dell-Optiplex7010 systemd[1]: Started Session 12714 of user root.
Mar  8 09:41:02 Dell-Optiplex7010 systemd[1]: Started Session 12716 of user root.
Mar  8 09:41:02 Dell-Optiplex7010 systemd[1]: Started Session 12717 of user root.
Mar  8 09:49:45 Dell-Optiplex7010 kernel: Linux version 4.18.0-80.11.2.el8_0.x86_64 (mockbuild@kbuilder.bsys.centos.org) (gcc version 8.2.1 20180905 (Red Hat 8.2.1-3) (GCC)) #1 SMP Tue Sep 24 11:32:19 UTC 2019
Mar  8 09:49:45 Dell-Optiplex7010 kernel: Command line: BOOT_IMAGE=(hd0,msdos1)/vmlinuz-4.18.0-80.11.2.el8_0.x86_64 root=/dev/mapper/cl-root ro crashkernel=auto resume=/dev/mapper/cl-swap rd.lvm.lv=cl/root rd.lvm.lv=cl/swap rhgb quiet


Re:Server občas přestane komunikovat
« Odpověď #5 kdy: 08. 03. 2020, 18:11:23 »
A historické záznamy? Třeba z doby, kdy přestávala reagovat ta klávesnice?

Obecně můžeš prolézt všechny logy co máš ve /var/log a hledat v nich cokoli, co ti připadá jako chyba.

Re:Server občas přestane komunikovat
« Odpověď #6 kdy: 08. 03. 2020, 20:11:24 »
Příště zkuste před tvrdým vypnutím použít magické klávesy pro syncnutí souborových systému na disk a následně reboot. Když rovnou natvrdo vypnete počítač, je pravděpodobné, že logy ještě nebudou zapsané na disku – zvlášť u XFS, které si rádo drží co nejvíc v paměti. Pokud by nefungovala ani ta magická zkratka na reboot, hledal bych problém spíš v hardwaru, nebo možná v ovladači hardwaru, pokud máte nějaké netypické zařízení. Pokud tkratka reboot provede, je to dobré, protože to znamená, že v okamžiku „zamrznutí“ jádro ve skutečnosti žije, a s tím už se dá dělat spousta věcí.

(A nezapomeňte na to, že se magické klávesy dají konfiguračně vypnout, takže si předem ověřte, že je máte zapnuté.)

Re:Server občas přestane komunikovat
« Odpověď #7 kdy: 08. 03. 2020, 20:26:29 »
LA_user: Kdy klávesnice přestala fungovat já nevím, ale dá se předpokládat z výše uvedeného logu, že v 9:41 okolo této doby jsou pouze výše uvedené logy + CRON log, jde je pouze zaznamenáno, že byla spuštěna rutina spouštěná po minutě. Logy nám tedy již nic dalšího neřeknou.

Filip Jirsák: Za magické tlačítko moc děkuji, snad bude fungovat, až ho budu potřebovat. Nicméně, je divné, že se během tohoto záseku zasekne i samotný systém, protože je díra i v /var/log/messages, viz výše. Z toho důvodu se jako amatér domnívám, že nebude na magickou klávesu reagovat. Zařízením je korporátní počítač Dell OptiPlex SFF 7010,  bez použití speciálních ovladačů, běží na už pár měsíců pořád stejné služby a tento problém se mi začal stávat až v poslední době. Mám pocit, že s magické zkratky mi hodně pomohou, zkusím to, děkuji moc.

Re:Server občas přestane komunikovat
« Odpověď #8 kdy: 08. 03. 2020, 20:41:00 »
To právě nevíte, zda se zasekne systém. Log může být jenom v paměti, a když počítač vypnete natvrdo, nezapíše se na disk – proto je pak v logu ta díra. Proto jsem doporučoval použít to Magic SysRq S, protože tím se data z paměti zapíšou na disk.

Re:Server občas přestane komunikovat
« Odpověď #9 kdy: 08. 03. 2020, 20:43:09 »
Ako máš pripojený keyboard? Drátom, alebo bezdrátovo? S bezdrátovým pripojením môže byť problém pri uspaní. Už som na to narazil, že to nereagovalo.

Logik

  • *****
  • 1 031
    • Zobrazit profil
    • E-mail
Re:Server občas přestane komunikovat
« Odpověď #10 kdy: 09. 03. 2020, 14:22:20 »
Todle bych řekl vypadá na HW errror. Obzlášť, jestli je to home PC používanej 24/7, tak se mohlo stát, že něco odešlo.
Takže klasika - memtest, vizuální prohlídka kondenzátorů na desce....
Další, co jsi nepsal, je, zdali na ten "rozbitej" server funguje SSH. Pokud funguje, tak prozkoumat pomocí SSH. Pokud nefunguje, tak to, že by byl systém ještě ve "funkčním" stavu a reagoval na magické klávesy je poměrně malá.

Logik

  • *****
  • 1 031
    • Zobrazit profil
    • E-mail
Re:Server občas přestane komunikovat
« Odpověď #11 kdy: 09. 03. 2020, 14:24:31 »
Teď mě napadá - že se to chvíli na dlouhou dobu sekalo? A trvale svítil indikátor?
Tak to bych s velkou jistotou čekal chybu disku. Zasekne se nějaké systémové IO a celej systém je v kopru. Takže jako jeden z prvních kroků prověřit disky (smartctl ....).

Re:Server občas přestane komunikovat
« Odpověď #12 kdy: 09. 03. 2020, 14:46:39 »
Todle bych řekl vypadá na HW errror. Obzlášť, jestli je to home PC používanej 24/7, tak se mohlo stát, že něco odešlo.
Takže klasika - memtest, vizuální prohlídka kondenzátorů na desce....
Další, co jsi nepsal, je, zdali na ten "rozbitej" server funguje SSH. Pokud funguje, tak prozkoumat pomocí SSH. Pokud nefunguje, tak to, že by byl systém ještě ve "funkčním" stavu a reagoval na magické klávesy je poměrně malá.

Kondenzátory vizuálně projít, naprostý souhlas. Jakmile bude některý fouknutý nebo vyteklý, desku poslat do háje. Nemusí to být ale jen kondenzátory. Může to být třeba i jen zdrojem. Blbé je, že bude trvat dlouho na to přijít.

V biosu zkontrolovat, jestli jsou vypnuté C-states.

Ideálně nainstalovat úplně čistý OS a nechat zahořet. Vzhledem k tomu, že se to projevuje až po týdnech, tak to bude trvat dlouho a velká jistota nebude.

Vzhledem k tomu, že se nejedná o serverovou desku, vykašlal bych se na to. Možnosti diagnostiky jsou omezené, budete to řešit týdny a na konci stejně přijdete na to, že koupíte nový hardware.

Re:Server občas přestane komunikovat
« Odpověď #13 kdy: 09. 03. 2020, 16:53:44 »
@Filip Jirsák: Zkoušel jsem [alt] + [prtscr] + [ b ], což by měl být "immediately reboot the machine", doufal jsem tedy v bezpečný reboot. Nefungovalo to, ale když jsem sysrq zapnul, tak už to fungovalo, zkusil sem to dvakrát a a XFS se mi zatím nezničil. Jak bych měl použít [alt] + [prtscr] + [ s ] ? Spustit, počkat třeba minutu a pak teprve [alt] + [prtscr] + [ b ]?

No každopádně jádro běží.

@johanson14: Klávesnice za to nemůže, magické klávesy fungují, ale děkuji za tip.

@Logik: Dell interní health check sem dělal a vše v pořádku až na hloubkový memory test, jen základní, nechtělo se mi čekat hodinu než se to otestuje pořádně. Disku jsme nedávno koukali na S.M.A.R.T. a vše by mělo být v naprostým pořádku, zkusím celý selftest udělat znovu.

Já sem hlavně do názvu tématu nechtěl psát slovo "server" to tam dodal až moderátor. Protože to není server, je to desktop PC a SSH by nemalo být nainstalováno a jestli jo, tak deaktivovaný démon.Magic SysRq klávesy fungují. Vylučuje funkčnost magických kláves HW závadu disku/paměti? Můžu se na ten HW test vyprdnout? :-)

Koukám, že to raději prověřím, viz foto indikátoru, který svítí permanentně, chvilkami zběsile bliká mezi trvalým svícením.

@Miroslav Šilhavý: kondenzátory projdu, ale do zdroje se lámat asi nechci, nevím jak dobře je přístupný. Pokusím se o c-states něco zjistit. Projevuje se to obvykle každý 1-4 dny, obvykle do 48 hodin, ale hodně odhaduji. Před pár měsíci jsem to koupil. :-D Snad na to nejak přijdeme, a nebude to vůbec HW.

@Všichni: Děkuji moc za pomoc.




« Poslední změna: 09. 03. 2020, 17:03:33 od scientific »

Re:Server občas přestane komunikovat
« Odpověď #14 kdy: 09. 03. 2020, 16:58:58 »
@scientific: Podle mě je levnější koupit laciný server (třeba Supermicro), ušetříte si spoustu starostí. Desktop opravdu není server.