Ahoj,
už nevím, co s tím dále debugovat a řeším to skoro již dva roky a zatím nic nepomohlo.
Mám DIY server s Ryzenem 5950X + 4x32GB RAM UDIMM ECC + Asrock Rack X470-D4U.
Na serveru běží Archlinux a na něm jen Docker s cca 700 kontejnery.
Od začátku jsem řešil problém, že s tím Ryzenem server padá po spuštění Dockeru třeba po 5 minutách. Proběhlo několik reklamací a nic - prý vše v pořádku. Mezitím jsem tam měl Ryzen 5800X3D a ten byl rock-stable. Nakonec pomohlo snížení frekvence pamětí na polovinu (1333Mhz). Dlouhou dobu to bylo v pořádku, ale pár měsíců zpátky problém zase začal. Myslel jsem, že to bylo teplotou, tak jsem upgradoval case a chladiče. Teplota klesla průměrně o 10 ˚C.
Každopádně to vůbec nepomohlo. Server teď pravidelně padá při buildění jedné monorepo node.js aplikace. Když build běží, tak load serveru není celkově větší než 10 a teploty lezou přes 90°C i přesto, že server mám daný na TDP 80W a PPT 95W. Rozhodl jsem se to dnes znovu řešit, aby to nedělalo v pracovním týdnu nepříjemnosti, ale bohužel nejsem schopný teď server shodit.
Zkoušel jsem stress i stress-ng a i přes extrémní nastavení jsem se nedostal přes 80˚C. Vůbec teda nechápu, jak může nějakej node s loadem max 10 zatopit tolik serveru, že dokáže zamrznout tak, že ani přes IPMI ho nemohu ovládat.
Bohužel si stále nejsem jistý, že to je vysokou teplotou a navíc to teď ani nemohu nasimulovat i přesto, že spouštím několik buildů naráz.
Dá se to nějak oddebugovat, co reálně ten totální freeze způsobilo? V logách ani nikde jinde nic nemám a bohužel to teď ani nemůžu nasimulovat no...