Ahoj,
28. března mi vytuhnul systém na jednom z mých počítačů (běží 24/7). Dneska jsem po telefonu zařídil restart (vypnout/zapnout) a od tý doby to jede normálně. Přemýšlím, co se asi tak mohlo stát...
Co vím:
1. stroj odpovídal na ping a měl otevřené porty (ssh, dns, web server)
2. dotaz na DNS z vnitřní sítě zůstal nezodpovězen (DNS nereagovalo)
3. pokus o připojení na SSH skončil zlomenou rourou (Broken pipe, can't write - vyvolalo u mě podezření na plný disk, teď zpětně mě napadá taky read-only)
4. po restartu jedou služby v pohodě, DNS odpovídá, disk má dost místa (jak oddíl /, tak oddíl /home), zdánlivě vše běží jak má
Ve /var/log/messages je poslední (před restartem)
Mar 27 03:10:08 pisces syslog-ng[2279]: Configuration reload request received, reloading configuration;
Mar 27 15:10:08 pisces syslog-ng[2279]: Log statistics; processed='center(received)=76903', processed='center(queued)=153806',
processed='src.none()=0', stamp='src.none()=0', processed='source(src)=76903', processed='destination(messages)=76903', proce
ssed='global(payload_reallocs)=77305', processed='global(sdata_updates)=0', processed='destination(console_all)=76903', proces
sed='global(msg_clones)=0', processed='src.internal(src#2)=61', stamp='src.internal(src#2)=1459041008', processed='global(inte
rnal_queue_length)=0'
Druhý záznam se každých 12 hodin opakuje (s jinými hodnotami), jinak v logu od tohoto času nic není (ani dhcpcd, cron, vpn, ...). V ten den zkoušel nějakej bot(net) hádat na SSH, ale mám povolený jen klíčem a používám ed25519 (openssh7.1, dsa už zakázáno) a všechno skončilo disconnectem v preauth. Jinak nic zvláštního.
Teď po cca 2 hodinách ifconfig říká 1.5MB přijato, 3.1MB odesláno (takže žádnej provoz, což je ok). Podle htop CPU nic nedělá, paměť je +- prázdná. Nemyslím si, že by systém byl napadený.
Nicméně - co hledat, jak postupovat při hledání problém, kvůli kterýmu to vytuhlo?
EDIT: z RAID1 vypadl jeden disk, který je pro oddíl / (možná to bude jen v tom... přečetl se někde zmetek)