Jak z logu identifikovat chybný paměťový modul?

asqewqeqqweqwe

Jak z logu identifikovat chybný paměťový modul?
« kdy: 10. 10. 2018, 13:01:22 »
Zdravim, na jednej pamati mi zacali naskakovat nepretrzite ECC chyby z coho sudim, ze je chybna. Ako ale zistit, ktora to je?

Kód: [Vybrat]
mce: [Hardware Error]: Machine check events logged
[Hardware Error]: Corrected error, no action required.
[Hardware Error]: CPU:8 (15:2:0) MC4_STATUS[Over|CE|MiscV|-|AddrV|-|-|CECC]: 0xdc20400027080a13
[Hardware Error]: Error Addr: 0x0000000c2ecb3560
[Hardware Error]: MC4 Error (node 1): DRAM ECC error detected on the NB.
[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

Dakujem.
« Poslední změna: 10. 10. 2018, 13:39:52 od Petr Krčmář »


asd

Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #1 kdy: 10. 10. 2018, 14:19:23 »
Jestli to jde, zkus masinu odstravit a rebootovat do memtestu a nechat ho poradne procvicit celou RAM - to je nejjistejsi.

Trupik

Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #2 kdy: 10. 10. 2018, 14:56:32 »
Ipmitool by mal reportovať aj čísla slotov:

Kód: [Vybrat]
server ~ # ipmitool sel elist
...
  e8 | 07/03/2015 | 11:17:52 | Memory DIMM 16 | Uncorrectable ECC | Asserted
  e9 | 07/03/2015 | 11:17:52 | Memory DIMM 16 | Memory Device Disabled | Asserted
...

asqewqeqqweqwe

Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #3 kdy: 10. 10. 2018, 15:42:15 »
V IPMI prave nie je ziadna chyba RAM vyhodnotena.


j

Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #4 kdy: 10. 10. 2018, 18:25:42 »
To nemusi byt vubec chyba pameti a pri memtestu se nemusi vubec projevit, pripadne se ti projevi, ale pokazdy na jinym modulu.

Takze odpoved je ... blbe.

Kazdopadne krok jedna - vyndej vsechny moduly, vycisti je (guma na gumovani pres konktakty), profoukni vsechny sloty ... a uvidis. Samo pri tom pokud mozno zkoukni desku, jestli neni nekde neco viditelne spatne.

Pokud bys to opravdu chtel testovat, tak idealne po jednom modulu, coz mas na par dnu i pokud je jich malo. Pripadne si nekde puc jiny ramky, a vyzkousej to snima, minimalne tak eliminujes moznost ze to je MB.

Napriklad u Dellu R900 je presne tohle vlastnost ... pokud mas vsechny (32x) sloty plny. Je to HW chyba (vsech) desek.


Jose D

  • *****
  • 850
    • Zobrazit profil
Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #5 kdy: 20. 10. 2018, 19:17:51 »
Špatně. Pokud ipmi nic nehlasilo, můžeš se zkusit kouknout do BIOSu, jestli to tam není vypnuté a příště ti to FW ipmi modulu možná prechrousta.

Pokud máš těch serveru hodně a corrected errors je dost, myslim, ze někde v konfigu mcelogu se dalo povolit vypsání raw dát, ze kterých je vidět vic. Pak už je to klasika, přehazovačka dimmek a diff nad raw logem z mcelogu, a celkem jednoduše si uděláš tabulku fyzických pozic modulů.

Jinak jedna correctable err spatnej modul nedělá..

Ale jak psal j, může to bejt klidně cokoliv. Cpu, MB, bug ve fw..

Jenda

Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #6 kdy: 20. 10. 2018, 20:48:50 »
Blbě. Memtest86+ ECC neumí (alespoň na mé desce), můžeš zkusit ještě "edac-util -v" a "dmidecode". Pro rychlé vyvolání chyby při testování pak memtester (userspace program).

https://www.abclinuxu.cz/poradna/hardware/show/427329

Trupik

Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #7 kdy: 20. 10. 2018, 21:04:50 »
V IPMI prave nie je ziadna chyba RAM vyhodnotena.
Možno sa mýlim, ale myslím si, že IPMI to hlási, len nejaký super-duper nástroj v tej linuxovej distribúcii to z IPMI prečíta, zapíše do syslogu bez toho, aby tam zapísal dostatok podrobností, a potom to z pôvodného IPMI logu proste zmaže.

Jose D

  • *****
  • 850
    • Zobrazit profil
Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #8 kdy: 20. 10. 2018, 22:19:44 »
nejaký (...) nástroj (...) to z IPMI prečíta, zapíše do syslogu (...) , a potom to (...) zmaže.
celkem pochybuju. Tohle umí ipmiseld, ale ten maže logy v případě překročení nějakého thresholdu zaplnění ipmi sel logu. Leda že by tam byla nějaká extra nestd. konfigurace..

Mcelog to bere přes jiné API a s IPMI se normálně vůbec nebaví.
« Poslední změna: 20. 10. 2018, 22:22:48 od Jose D »

Jenda

Re:Jak z logu identifikovat chybný paměťový modul?
« Odpověď #9 kdy: 20. 10. 2018, 22:49:15 »
Možno sa mýlim, ale myslím si, že IPMI to hlási, len nejaký super-duper nástroj v tej linuxovej distribúcii to z IPMI prečíta, zapíše do syslogu bez toho, aby tam zapísal dostatok podrobností, a potom to z pôvodného IPMI logu proste zmaže.
To, co vidíme v syslogu, nesouvisí s IPMI, MCE je jiný typ (exceptions). Například některé moje stroje IPMI vůbec nemají a taky vyhazují MCE.