TrueNAS CE se náhodně restartuje

TrueNAS CE se náhodně restartuje
« kdy: 01. 02. 2026, 20:09:12 »

Ahojte,

neviem presne, kam to mam zaradit (HW/SW/server), najskor config

HW:
HP Microserver gen8
CPU: Intel(R) Xeon(R) CPU E3-1220L V2 @ 2.30GHz (hyperthreading on)
RAM: 16GB RAM ECC
radic v HBA LSISAS2008: FWVersion(20.00.07.00), ChipRevision(0x03) [Serial Attached SCSI controller: Broadcom / LSI SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)]
1x Intel SSD - DVD bay (OS)
6x SATA WD Ultrastar HDD
2x SSD (WD Red 500GB)
Ethernet controller: Broadcom Inc. and subsidiaries NetXtreme BCM5720 Gigabit Ethernet PCIe (jeden port mam pre komunikaciu v ramci domacej siete, druhy pre komunikaciu do internetu - VM Ubuntu s contajnermi)

OS:
TrueNAS CE(Community Edition) 25.04.2.6
Nad kazdou dvojicou rovnakych diskov je spraveny Mirror. VM su na SSD.
VM1: 1 CPU, 2 cores, 1 thread, 2GB RAM, Debian 13, ubiquiti controller (unifi)
VM2: 1 CPU, 2 cores, 1 thread, 2GB RAM, Ubuntu 24.04.3 LTS, docker, containers:
   ghcr.io/linuxserver/qbittorrent:latest
   qmcgaw/gluetun:latest
   balabit/syslog-ng:latest
   mariadb
   teamspeak:latest
   atmoz/sftp:latest
   portainer/portainer-ce:latest
   alastairhm/alpine-lighttpd:latest

Bezal som na tom HW od roku 2022 s TrueNAS Core. Nemal som tolko HDD, priebezne pribudali, vsetko bez problemov aj v plnom configu. Nemal som tolko containerov.
Spravil som po Vianociach migraciu na TrueNAS CE(Debian based), kedze konci support pre FreeBSD 13 a tym padom uz nie je udrziavany Core. Odisiel mi pred casom aj jeden z tych dvoch SSD, tak som pocas migracie OS vymenil aj oba Intel SSD za uvedene WD Red, zaroven som zapol hyperthreading. S VM som sa netrapil, mal som priblizne rovnaky config pod FreeBSD(bhyve), nechcel som vymyslat s konvertovanim imageov, tak som spravil uplne nove VM(qemu).
Po migracii sa mi zacal stroj nahodne rebootovat. Nie je to vyslovene tragicke, vsetko sa automaticky pospusta. Casovo je to v dnoch, bolo aj par dni po sebe, vydrzalo aj do 7-10 dni. Neviem najst nic v logoch, TrueNAS to po reboote precisti. Spravil som si syslog container a presmeroval logy tam, ale nic podstatne tam nevidim (hladam podla uptime systemu nieco podozrive v logoch). Dorabal som si aj logovanie kernelu do toho syslogu, nic podozrive, navyse vzdy sa to po reboote nejako rozsype (asi preto, ze to nejde nastavit cez gui). Vsimol som si raz kopec chybovych hlasok v logoch toho ubuntu (nieco s GPU, mal som "Ensure display device", odkedy som to dal prec, je cisty log aj ubuntu). Povodne som si myslel, ze sa to deje pri velkom loade, gluetun drzi OpenVPN connection na NordVPN server a pri velkom trafficu na qbittorrent vyzieral CPU (skusal som aj wireguard, ale tam bolo malo peerov, co nie je logicke vysvetlenie, ale je to dost komplikovane na ladenie cez ten gluetun). Nakoniec som obmedzil CPU pre container.
Nevzdavam to, mam este nejake tipy, co poskusat
- vypnut hyperthreading
- skusat bezat containerov (pripadne ich nejako priebezne zapinat)
- skusit odpojit tie SSD (logicky nevidim preco, ale je to jedna zo zmien)
No aj tak som sa chcel spytat na Vas nazor, co prehliadam. Ocakaval som, ze budem schopny nejakym sposobom zalogovat chybovy stav pred rebootom, co mi napovie, kde je problem. Viete mi prosim Vas nieco k tomu poradit alebo dat nejake hinty?
Dakujem
m


RDa

  • *****
  • 3 198
    • Zobrazit profil
    • E-mail
Re:TrueNAS CE se náhodně restartuje
« Odpověď #1 kdy: 01. 02. 2026, 22:23:00 »
mas iLO ? umi iLO logovat duvod restartu (treba MCE / CAT_ERR - chyba hw)
v OS bych prekonfiguroval pripadny reboot-on-panic (linux to nedela, takze na displeji uvidis posledni duvod padu)

Pokud nic.. tak bych to rozebral, vyfoukal, osadil pameti tak 5x, cpu 2x, at se pruziny / kontaktni plosky trocha osoupou od bordelu.. muze to pomoci.

Ale jestli to bude treba zdrojem a spatnymi kodany.. tezko urcit - musel bys tam nejak udelat zatez ktera se treba meni, jako stress test - at to osciluje mezi idle a full loadem.

Re:TrueNAS CE se náhodně restartuje
« Odpověď #2 kdy: 01. 02. 2026, 23:48:01 »
len pre upresnenie
kupil som to v 2022 cez ebay, iLO pise nejaku chybu ohladom SD karty (ktoru ani nepouzivam), skusal som vsetko mozne, ale toho sa neviem zbavit ... nenasiel som vsak dopad na nic z toho, co pouzivam


v logoch iLO je


Mam silne podozrenie, ze sa to deje prave migraciou OS. S hyperthreadingom on/off som sa hral uz aj na TrueNAS Core, k rebootom to neviedlo. Tie SSD WD Red moc nepodozrievam. Mam menit ten reboot-on-panic alebo to viem nejakym sposobom zalogovat? Ten load som podozrieval, ale zistil som, ze sa to deje aj mimo vysokeho loadu (nasiel som uz viac rebootov, kedy tam nemal dovod nastat vacsi load).

Dakujem
m

RDa

  • *****
  • 3 198
    • Zobrazit profil
    • E-mail
Re:TrueNAS CE se náhodně restartuje
« Odpověď #3 kdy: Dnes v 00:09:08 »
ad "sd karta" - na ILO odchazi eMMC flash (to ma stejen rozhrani jako SD), nekdy to pomuze zformatovat, jindy je nutne to prepajet - je to znama chyba, ze tam na ni zapisuje ILO nejak moc casto (nevim zda to pak v nejake verzi bylo fixnuto).

Zkus otevrit ty hlasky z druheho obrazku ohledne NMI. Nedavo jsem videl post, jak nektere server konfigurace zpusobuji ten restart - mechanismus byl: na FPGA karte se reloaduje FW a to zpusobi SERR na PCIe zbernici a kdyz je SERR zapnuto v biosu, tak to vyvola NMI a reboot. Samozrejme to jde vypnout a o chybe nechtit slyset.. ale spravny to neni. Tohle tvuj pripad nebude - jen je mozny ze uz ti to stare zelezo odchazi no.. (V2 cpu je ivy bridge generace z roku 2013).

Reboot-panic se ke slovu nejspis ani nedostane - se ten stroj resetuje pres NMI - unrecoverable error, na urovni mimo OS.
« Poslední změna: Dnes v 00:12:13 od RDa »

RDa

  • *****
  • 3 198
    • Zobrazit profil
    • E-mail
Re:TrueNAS CE se náhodně restartuje
« Odpověď #4 kdy: Dnes v 00:18:34 »


Re:TrueNAS CE se náhodně restartuje
« Odpověď #5 kdy: Dnes v 00:46:00 »
"sd karta" ... skusal som aj format aj vsetko mozne, nikam to neviedlo, stale rovnaky stav

tie NMI hlasky mi nejdu viac rozkliknut :/

cez ipmi som dostal


ak sa budem musiet zmierit s tym, ze zomiera, tak sa s tym nejako zmierim. Ale aj podla tych hlasok z IPMI, prave toho 26.12.2025/27.12.2025 som presiel z TrueNAS Core na TrueNAS CE. Mne to nepride ako korelacia, ale skor kauzalita. Uz sa spat asi nevratim, kedze som updateol ten nejaky flag na ZFS (mam backup, ale kopiruje sa to prilis dlho, aby som sa skusal vracat na nepodporovany system). Dufal som v nejaky well known bug pri tejto HW a SW konfiguracii a nejaky workaround k tomu :/
dufal som, ze najdem nejaky sposob logovania, ktory stihne zalogovat chybu este pred samotnym rebootom

dakujem za konzultacie ...

RDa

  • *****
  • 3 198
    • Zobrazit profil
    • E-mail
Re:TrueNAS CE se náhodně restartuje
« Odpověď #6 kdy: Dnes v 02:18:25 »
Citace
prave toho 26.12.2025/27.12.2025 som presiel z TrueNAS Core na TrueNAS CE. Mne to nepride ako korelacia, ale skor kauzalita.

A nedelal jsi zaroven nejaky BIOS/ILO update u toho servisniho zasahu?

Pokud nechces prechazet na jiny sw, tak bych volil virtualizaci - na zelezo hodis Proxmox, a TrueNAS bude ve VM, sitovky i radice muzes hodit pres vfio jako pci passthrough pro jednoduchost (a muze ti vlastne zustat cela instalace pak jak je). Je to asi cesta nejmensiho odporu jak provest test s jinym OS/jadrem a zaroven zachovat provoz toho stroje ve tve siti.

Re:TrueNAS CE se náhodně restartuje
« Odpověď #7 kdy: Dnes v 12:50:00 »
Ahoj, zmíněný Gen8 taky někde mám, a můžu potvrdit ten problém s eMMC u iLO. Je tam asi 6 let, krom té periodické chybové hlášky a nemožnosti aktualizace FW to nemá bohudík žádný vliv na stabilitu serveru.. provozuju to už roky bez jiných problémů s čistým FreeBSD jako NAS.

Ta nemaskovatelná přerušení jsou divná, pokud by to byl skutečně symptom nějakého HW problému např. s deskou, pak by se to mělo projevovat víceméně úplně stejně napříč všemi systémy.
Pokud se výsky dá vysledovat čistě po přechodu na TrueNAS scale, je tam samozřejmě i určitá pravděpodobnost nekompatiblity případně nějaké regrese u které by pak dávalo smysl vyzkoušet jinou verzi jádra, jestliže to projede nějakým HW stress testem.

Jak TrueNAS Scale, tak Proxmox VE staví na Debianu 13 Trixie, ale mají odlišné základní verze jader. U Scale je to LTS kernel 6.12 u PVE pak aktuálně 6.17.
Jedna z možností je tedy, co píše RDa. Tzn. rozběhnout v Proxmoxu virtuál s TrueNASem a poslat do něj celá blok. zařízení s těmi ZFS pooly.
Osobně bych se tomuhle vrstvení spíš vyhnul a radši bych využil ZFS modul v Proxmoxu a nechal si ho spravovat ARC a přímo přistupovat na ta zařízení.
Sdílet pak data ven (NAS část) jde pak u PVE více způsoby, ale prakticky připadají v úvahu dvě varianty. Buď si přímo do hlavního systému doinstalovat Sambu, WSDD, NFS server atp. nebo si rozjet systémový LXD kontejner na sdílení a poslat do něj přímo ty ZFS datasety.
Preferuji tu druhou variantu, která sice není tak přímočará jako přidat pár balíčků do Debianu, ale umožňuje to mít oddělené nastavení, verze jaké chci, můžu to celé verzovat apd. a zároveň to má jako kontejner úplně minimální overhead. Takže prakticky klidně třeba minimální kontejner s Alpine Linuxem a pár službami. Akorát si pak člověk musí dát pozor na to, jak má namapovaná UID a GID mezi hlavním systémem a kontejnerem, když řeší třeba přístupová prává a nastavování ACL (na ZFS datasetu v hlavním systému). Podobně se tam dá rozjet třeba i další kontejner s DLNA serverem atd.
Jinak ty pooly by se měly dát v pohodě vyexportovat (zfs export) v TrueNASu a pak bez ztráty kytičky připojit jako další úložiště v PVE, možná jen při importu upravit mountpoint.
Podobně pak s trochou úsilí použít existující zvoly s disky od virtuálů a připojit je do nově vytvořených virtuálů v PVE. V nejhorším případě to u dvou virtuálů zkusit ručně přetahat přes externí image a nějaké živé distribuce do nově vytvořených VM.

Nakonec je tu určitě i další varianta.. dá se použítvat úplně standardní FreeBSD 15. Jen samozřejmě s tím, že se to spravuje přes konzoli bez UI. Pooly to naimportuje, Samba, DLNA atp. je v balíčcích. Virtuály s Ubuntu a UI kontrolerem se s trochou úsilí dají rozjet s byhve.

Re:TrueNAS CE se náhodně restartuje
« Odpověď #8 kdy: Dnes v 13:17:33 »
BIOS som dal najnovsi hned, ako som to kupil. V tom case som sa snazil vyriesit aj ten problem s eMMC flash a pocas toho som skusal aj rozne verzie iLO. Teraz som nechytal nic z toho, HP uz nevydava roky updates pre tento HW.

Toho riesenia s Proxmox sa tiez trosku obavam, kedze Proxmox aj TrueNAS CE bezia nad debian jadrom (aj ked v inej verzii ako uviedol pan Smucr). V tych prispevkoch, co si dal linky, riesia, ze na TrueNAS 24.10 su ok a 25.04/25.10 uz nie a to tam skusa celkom dost testovacich scenarov (aj ked skor by som cakal, ze bude odpajat/pripajat HW alebo menit nastavenia v BIOSe).

https://lists.debian.org/debian-amd64/2025/08/msg00014.html
https://linux.debian.bugs.dist.narkive.com/hoNSTWJQ/bug-1111027-linux-image-6-12-38-deb13-amd64-hp-gen8-crashing-with-6-12-from-trixie-nmi-error-in-iml-
https://forums.unraid.net/topic/195737-nmi-error-switched-from-n54l-to-hp-gen8-ms/

Dakujem aj za dalsi prispevok. Viem si predstavit aj to standardne FreeBSD, aj ked som chcel nejake pohodlne nenarocne rozhranie na spravu (jednoducha konfiguracia ACL nad jednotlivymi SMB shares). Tie VM som mal pod bhyve aj doteraz, takze tam problem neocakavam.

Nema nikto v prevadzke nejaky HP gen8 s nejakym novsim debianom a nestretol sa s podobnym problemom? Nema zmysel vyskusat zakazat nmi watchdog? Ako otestujem s minimalnym usilim, ze ten problem pod Proxmox nebude? Dam Proxmox na ine ssd a nepripojim tie disky na ten SAS controller? Pri FreeBSD problemy neocakavam, len to by som si dal najskor do nejakeho virtualu na desktope, aby som si to nejako poskusal, lebo nechcem mat dlhy vypadok NASu. Este je moznost "prezit" nejakym sposobom do aprila, kedy vyjde TrueNAS 26.04, ten by mal mat jadro 6.18.

Wasper

  • ***
  • 249
    • Zobrazit profil
    • E-mail
Re:TrueNAS CE se náhodně restartuje
« Odpověď #9 kdy: Dnes v 13:42:29 »
Nema nikto v prevadzke nejaky HP gen8 s nejakym novsim debianom a nestretol sa s podobnym problemom?
Jako jestli jsem na g8 nemusel s nekterymi verzemi Debianu a jeho kernelu nastavovat veci jako noacpi, noapic do bootovaci commandliny, aby to nezatuhlo v jakemsi divnem stavu (reboot to ale nebyl)?

Ano, musel, uz si presne nepamatuju jaka kombinace tehdy zvitezila, kazdopadne ted na 6.12.57+deb12 to vypada stabilne bez nich, predtim na 6.1.0 i kdyz se to obcas malokdy zaseklo pri bootu, nebo to pak fungovalo bez problemu. Ale v minulosti kazdy update kernelu problem bejval.

Urcite zkuste.

Re:TrueNAS CE se náhodně restartuje
« Odpověď #10 kdy: Dnes v 14:23:47 »
Nema nikto v prevadzke nejaky HP gen8 s nejakym novsim debianom a nestretol sa s podobnym problemom?

Bohužel, to se omlouvám, vždycky jsem na těch Microserverech měl jen FreeBSD nebo RHEL klony. Oboje bylo stabilní a víceméně bez problémů.
Také tenhle poslední kus, co je v provozu, tam má jiné CPU (Celeron místo Xeonu), takže nevím do jaké míry by ten případný test průkazný.

Citace
Ako otestujem s minimalnym usilim, ze ten problem pod Proxmox nebude? Dam Proxmox na ine ssd a nepripojim tie disky na ten SAS controller? Pri FreeBSD problemy neocakavam, len to by som si dal najskor do nejakeho virtualu na desktope, aby som si to nejako poskusal, lebo nechcem mat dlhy vypadok NASu. Este je moznost "prezit" nejakym sposobom do aprila, kedy vyjde TrueNAS 26.04, ten by mal mat jadro 6.18.

Jak jste posílal to vlákno z debian bugs ML, tak vypadá, že to je skutečně nějaká regrese.. předchozí 6.1 mu nemrzlo. A u Debianu to vypadá, že by tam měl být fix od 6.12.41 dál.
https://lists.debian.org/debian-amd64/2025/08/msg00015.html

Jestli už tohle jádro také je v TrueNASu, nedokážu teď rychle zjistit. Ale dá se předpokládat, že by to tam někdy mělo doputovat.
Možná by se dala dohledat i konkrétní změna u Debianu, a pak prohrabat nějaké committy u TrueNASu. (mají všechno ve větvích na GitHubu)
https://github.com/truenas/linux

Jinak jak jste se ptal, tak minimální úsilí by za mě asi bylo udělat zmíněný zfs export v TrueNASu. Odpojit původní SSD a odložit ho, vzít nějaké plonkové SSD na test a nainstalovat na něj PVE (nebo třeba novější Ubuntu se ZFS modulem, pokud vám jde jen o jinou verzi jádra). Ty pooly pak přes zfs import připojit v jiném systému.
Nastavit v Sambě nějaké základní sdílené složky pro základní použití (třeba bez virtuálů zatím, jestli bez nich chvíli vydržíte) a počkat ten cca týden, jestli se to bude také restartovat.
Případně se pak můžete vrátit zas k TrueNASu.. (opět zfs export, import).

Jinak ještě mě napadlo s tím FreeBSD, co tam předtím chodilo. Standardně to nepoužívá vyšší c-states než 1 (do hlubších to nejde, musí se explicitně povolit přes sysctl). Podobně to nemá frequency scaling, pokud se explcitně nezapne služba, powerd_enable="YES" v rc.conf. Jestli tenhle problém nějak souvisí s power managementem u Intel CPU, jak nadhazovali v tom vlákně, tak je klidně možné, že ve FreeBSD to prostě vůbec není zapnuté.. Ale to je jen teď taková rychlá úvaha.