Fórum Root.cz
Hlavní témata => Server => Téma založeno: datlikMS 01. 02. 2026, 20:09:12
-
Ahojte,
neviem presne, kam to mam zaradit (HW/SW/server), najskor config
HW:
HP Microserver gen8
CPU: Intel(R) Xeon(R) CPU E3-1220L V2 @ 2.30GHz (hyperthreading on)
RAM: 16GB RAM ECC
radic v HBA LSISAS2008: FWVersion(20.00.07.00), ChipRevision(0x03) [Serial Attached SCSI controller: Broadcom / LSI SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)]
1x Intel SSD - DVD bay (OS)
6x SATA WD Ultrastar HDD
2x SSD (WD Red 500GB)
Ethernet controller: Broadcom Inc. and subsidiaries NetXtreme BCM5720 Gigabit Ethernet PCIe (jeden port mam pre komunikaciu v ramci domacej siete, druhy pre komunikaciu do internetu - VM Ubuntu s contajnermi)
OS:
TrueNAS CE(Community Edition) 25.04.2.6
Nad kazdou dvojicou rovnakych diskov je spraveny Mirror. VM su na SSD.
VM1: 1 CPU, 2 cores, 1 thread, 2GB RAM, Debian 13, ubiquiti controller (unifi)
VM2: 1 CPU, 2 cores, 1 thread, 2GB RAM, Ubuntu 24.04.3 LTS, docker, containers:
ghcr.io/linuxserver/qbittorrent:latest
qmcgaw/gluetun:latest
balabit/syslog-ng:latest
mariadb
teamspeak:latest
atmoz/sftp:latest
portainer/portainer-ce:latest
alastairhm/alpine-lighttpd:latest
Bezal som na tom HW od roku 2022 s TrueNAS Core. Nemal som tolko HDD, priebezne pribudali, vsetko bez problemov aj v plnom configu. Nemal som tolko containerov.
Spravil som po Vianociach migraciu na TrueNAS CE(Debian based), kedze konci support pre FreeBSD 13 a tym padom uz nie je udrziavany Core. Odisiel mi pred casom aj jeden z tych dvoch SSD, tak som pocas migracie OS vymenil aj oba Intel SSD za uvedene WD Red, zaroven som zapol hyperthreading. S VM som sa netrapil, mal som priblizne rovnaky config pod FreeBSD(bhyve), nechcel som vymyslat s konvertovanim imageov, tak som spravil uplne nove VM(qemu).
Po migracii sa mi zacal stroj nahodne rebootovat. Nie je to vyslovene tragicke, vsetko sa automaticky pospusta. Casovo je to v dnoch, bolo aj par dni po sebe, vydrzalo aj do 7-10 dni. Neviem najst nic v logoch, TrueNAS to po reboote precisti. Spravil som si syslog container a presmeroval logy tam, ale nic podstatne tam nevidim (hladam podla uptime systemu nieco podozrive v logoch). Dorabal som si aj logovanie kernelu do toho syslogu, nic podozrive, navyse vzdy sa to po reboote nejako rozsype (asi preto, ze to nejde nastavit cez gui). Vsimol som si raz kopec chybovych hlasok v logoch toho ubuntu (nieco s GPU, mal som "Ensure display device", odkedy som to dal prec, je cisty log aj ubuntu). Povodne som si myslel, ze sa to deje pri velkom loade, gluetun drzi OpenVPN connection na NordVPN server a pri velkom trafficu na qbittorrent vyzieral CPU (skusal som aj wireguard, ale tam bolo malo peerov, co nie je logicke vysvetlenie, ale je to dost komplikovane na ladenie cez ten gluetun). Nakoniec som obmedzil CPU pre container.
Nevzdavam to, mam este nejake tipy, co poskusat
- vypnut hyperthreading
- skusat bezat containerov (pripadne ich nejako priebezne zapinat)
- skusit odpojit tie SSD (logicky nevidim preco, ale je to jedna zo zmien)
No aj tak som sa chcel spytat na Vas nazor, co prehliadam. Ocakaval som, ze budem schopny nejakym sposobom zalogovat chybovy stav pred rebootom, co mi napovie, kde je problem. Viete mi prosim Vas nieco k tomu poradit alebo dat nejake hinty?
Dakujem
m
-
mas iLO ? umi iLO logovat duvod restartu (treba MCE / CAT_ERR - chyba hw)
v OS bych prekonfiguroval pripadny reboot-on-panic (linux to nedela, takze na displeji uvidis posledni duvod padu)
Pokud nic.. tak bych to rozebral, vyfoukal, osadil pameti tak 5x, cpu 2x, at se pruziny / kontaktni plosky trocha osoupou od bordelu.. muze to pomoci.
Ale jestli to bude treba zdrojem a spatnymi kodany.. tezko urcit - musel bys tam nejak udelat zatez ktera se treba meni, jako stress test - at to osciluje mezi idle a full loadem.
-
len pre upresnenie
kupil som to v 2022 cez ebay, iLO pise nejaku chybu ohladom SD karty (ktoru ani nepouzivam), skusal som vsetko mozne, ale toho sa neviem zbavit ... nenasiel som vsak dopad na nic z toho, co pouzivam
(https://divocina.no-ip.biz:8443/files/iel.jpg)
v logoch iLO je
(https://divocina.no-ip.biz:8443/files/iml.jpg)
Mam silne podozrenie, ze sa to deje prave migraciou OS. S hyperthreadingom on/off som sa hral uz aj na TrueNAS Core, k rebootom to neviedlo. Tie SSD WD Red moc nepodozrievam. Mam menit ten reboot-on-panic alebo to viem nejakym sposobom zalogovat? Ten load som podozrieval, ale zistil som, ze sa to deje aj mimo vysokeho loadu (nasiel som uz viac rebootov, kedy tam nemal dovod nastat vacsi load).
Dakujem
m
-
ad "sd karta" - na ILO odchazi eMMC flash (to ma stejen rozhrani jako SD), nekdy to pomuze zformatovat, jindy je nutne to prepajet - je to znama chyba, ze tam na ni zapisuje ILO nejak moc casto (nevim zda to pak v nejake verzi bylo fixnuto).
Zkus otevrit ty hlasky z druheho obrazku ohledne NMI. Nedavo jsem videl post, jak nektere server konfigurace zpusobuji ten restart - mechanismus byl: na FPGA karte se reloaduje FW a to zpusobi SERR na PCIe zbernici a kdyz je SERR zapnuto v biosu, tak to vyvola NMI a reboot. Samozrejme to jde vypnout a o chybe nechtit slyset.. ale spravny to neni. Tohle tvuj pripad nebude - jen je mozny ze uz ti to stare zelezo odchazi no.. (V2 cpu je ivy bridge generace z roku 2013).
Reboot-panic se ke slovu nejspis ani nedostane - se ten stroj resetuje pres NMI - unrecoverable error, na urovni mimo OS.
-
Zde:
https://www.reddit.com/r/homelab/comments/1m6jq9m/unrecoverable_system_error_nmi_on_hp_proliant/
to jeden nevyresil a jinej s truenasem usoudil ze mu umira deska. Ale jsou tam dalsi odkazy, treba:
https://forums.truenas.com/t/hp-proliant-microserver-gen8-instable-on-v25-ok-on-v24-and-debian12-kernel-issue/52905
( taky doposud bez reseni)