Fórum Root.cz
Hlavní témata => Hardware => Téma založeno: asqewqeqqweqwe 10. 10. 2018, 13:01:22
-
Zdravim, na jednej pamati mi zacali naskakovat nepretrzite ECC chyby z coho sudim, ze je chybna. Ako ale zistit, ktora to je?
mce: [Hardware Error]: Machine check events logged
[Hardware Error]: Corrected error, no action required.
[Hardware Error]: CPU:8 (15:2:0) MC4_STATUS[Over|CE|MiscV|-|AddrV|-|-|CECC]: 0xdc20400027080a13
[Hardware Error]: Error Addr: 0x0000000c2ecb3560
[Hardware Error]: MC4 Error (node 1): DRAM ECC error detected on the NB.
[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)
Dakujem.
-
Jestli to jde, zkus masinu odstravit a rebootovat do memtestu a nechat ho poradne procvicit celou RAM - to je nejjistejsi.
-
Ipmitool by mal reportovať aj čísla slotov:
server ~ # ipmitool sel elist
...
e8 | 07/03/2015 | 11:17:52 | Memory DIMM 16 | Uncorrectable ECC | Asserted
e9 | 07/03/2015 | 11:17:52 | Memory DIMM 16 | Memory Device Disabled | Asserted
...
-
V IPMI prave nie je ziadna chyba RAM vyhodnotena.
-
To nemusi byt vubec chyba pameti a pri memtestu se nemusi vubec projevit, pripadne se ti projevi, ale pokazdy na jinym modulu.
Takze odpoved je ... blbe.
Kazdopadne krok jedna - vyndej vsechny moduly, vycisti je (guma na gumovani pres konktakty), profoukni vsechny sloty ... a uvidis. Samo pri tom pokud mozno zkoukni desku, jestli neni nekde neco viditelne spatne.
Pokud bys to opravdu chtel testovat, tak idealne po jednom modulu, coz mas na par dnu i pokud je jich malo. Pripadne si nekde puc jiny ramky, a vyzkousej to snima, minimalne tak eliminujes moznost ze to je MB.
Napriklad u Dellu R900 je presne tohle vlastnost ... pokud mas vsechny (32x) sloty plny. Je to HW chyba (vsech) desek.
-
Špatně. Pokud ipmi nic nehlasilo, můžeš se zkusit kouknout do BIOSu, jestli to tam není vypnuté a příště ti to FW ipmi modulu možná prechrousta.
Pokud máš těch serveru hodně a corrected errors je dost, myslim, ze někde v konfigu mcelogu se dalo povolit vypsání raw dát, ze kterých je vidět vic. Pak už je to klasika, přehazovačka dimmek a diff nad raw logem z mcelogu, a celkem jednoduše si uděláš tabulku fyzických pozic modulů.
Jinak jedna correctable err spatnej modul nedělá..
Ale jak psal j, může to bejt klidně cokoliv. Cpu, MB, bug ve fw..
-
Blbě. Memtest86+ ECC neumí (alespoň na mé desce), můžeš zkusit ještě "edac-util -v" a "dmidecode". Pro rychlé vyvolání chyby při testování pak memtester (userspace program).
https://www.abclinuxu.cz/poradna/hardware/show/427329
-
V IPMI prave nie je ziadna chyba RAM vyhodnotena.
Možno sa mýlim, ale myslím si, že IPMI to hlási, len nejaký super-duper nástroj v tej linuxovej distribúcii to z IPMI prečíta, zapíše do syslogu bez toho, aby tam zapísal dostatok podrobností, a potom to z pôvodného IPMI logu proste zmaže.
-
nejaký (...) nástroj (...) to z IPMI prečíta, zapíše do syslogu (...) , a potom to (...) zmaže.
celkem pochybuju. Tohle umí ipmiseld, ale ten maže logy v případě překročení nějakého thresholdu zaplnění ipmi sel logu. Leda že by tam byla nějaká extra nestd. konfigurace..
Mcelog to bere přes jiné API a s IPMI se normálně vůbec nebaví.
-
Možno sa mýlim, ale myslím si, že IPMI to hlási, len nejaký super-duper nástroj v tej linuxovej distribúcii to z IPMI prečíta, zapíše do syslogu bez toho, aby tam zapísal dostatok podrobností, a potom to z pôvodného IPMI logu proste zmaže.
To, co vidíme v syslogu, nesouvisí s IPMI, MCE je jiný typ (exceptions). Například některé moje stroje IPMI vůbec nemají a taky vyhazují MCE.