Fórum Root.cz

Hlavní témata => Hardware => Téma založeno: asqewqeqqweqwe 10. 10. 2018, 13:01:22

Název: Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: asqewqeqqweqwe 10. 10. 2018, 13:01:22
Zdravim, na jednej pamati mi zacali naskakovat nepretrzite ECC chyby z coho sudim, ze je chybna. Ako ale zistit, ktora to je?

Kód: [Vybrat]
mce: [Hardware Error]: Machine check events logged
[Hardware Error]: Corrected error, no action required.
[Hardware Error]: CPU:8 (15:2:0) MC4_STATUS[Over|CE|MiscV|-|AddrV|-|-|CECC]: 0xdc20400027080a13
[Hardware Error]: Error Addr: 0x0000000c2ecb3560
[Hardware Error]: MC4 Error (node 1): DRAM ECC error detected on the NB.
[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

Dakujem.
Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: asd 10. 10. 2018, 14:19:23
Jestli to jde, zkus masinu odstravit a rebootovat do memtestu a nechat ho poradne procvicit celou RAM - to je nejjistejsi.
Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: Trupik 10. 10. 2018, 14:56:32
Ipmitool by mal reportovať aj čísla slotov:

Kód: [Vybrat]
server ~ # ipmitool sel elist
...
  e8 | 07/03/2015 | 11:17:52 | Memory DIMM 16 | Uncorrectable ECC | Asserted
  e9 | 07/03/2015 | 11:17:52 | Memory DIMM 16 | Memory Device Disabled | Asserted
...
Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: asqewqeqqweqwe 10. 10. 2018, 15:42:15
V IPMI prave nie je ziadna chyba RAM vyhodnotena.

Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: j 10. 10. 2018, 18:25:42
To nemusi byt vubec chyba pameti a pri memtestu se nemusi vubec projevit, pripadne se ti projevi, ale pokazdy na jinym modulu.

Takze odpoved je ... blbe.

Kazdopadne krok jedna - vyndej vsechny moduly, vycisti je (guma na gumovani pres konktakty), profoukni vsechny sloty ... a uvidis. Samo pri tom pokud mozno zkoukni desku, jestli neni nekde neco viditelne spatne.

Pokud bys to opravdu chtel testovat, tak idealne po jednom modulu, coz mas na par dnu i pokud je jich malo. Pripadne si nekde puc jiny ramky, a vyzkousej to snima, minimalne tak eliminujes moznost ze to je MB.

Napriklad u Dellu R900 je presne tohle vlastnost ... pokud mas vsechny (32x) sloty plny. Je to HW chyba (vsech) desek.
Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: Jose D 20. 10. 2018, 19:17:51
Špatně. Pokud ipmi nic nehlasilo, můžeš se zkusit kouknout do BIOSu, jestli to tam není vypnuté a příště ti to FW ipmi modulu možná prechrousta.

Pokud máš těch serveru hodně a corrected errors je dost, myslim, ze někde v konfigu mcelogu se dalo povolit vypsání raw dát, ze kterých je vidět vic. Pak už je to klasika, přehazovačka dimmek a diff nad raw logem z mcelogu, a celkem jednoduše si uděláš tabulku fyzických pozic modulů.

Jinak jedna correctable err spatnej modul nedělá..

Ale jak psal j, může to bejt klidně cokoliv. Cpu, MB, bug ve fw..
Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: Jenda 20. 10. 2018, 20:48:50
Blbě. Memtest86+ ECC neumí (alespoň na mé desce), můžeš zkusit ještě "edac-util -v" a "dmidecode". Pro rychlé vyvolání chyby při testování pak memtester (userspace program).

https://www.abclinuxu.cz/poradna/hardware/show/427329
Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: Trupik 20. 10. 2018, 21:04:50
V IPMI prave nie je ziadna chyba RAM vyhodnotena.
Možno sa mýlim, ale myslím si, že IPMI to hlási, len nejaký super-duper nástroj v tej linuxovej distribúcii to z IPMI prečíta, zapíše do syslogu bez toho, aby tam zapísal dostatok podrobností, a potom to z pôvodného IPMI logu proste zmaže.
Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: Jose D 20. 10. 2018, 22:19:44
nejaký (...) nástroj (...) to z IPMI prečíta, zapíše do syslogu (...) , a potom to (...) zmaže.
celkem pochybuju. Tohle umí ipmiseld, ale ten maže logy v případě překročení nějakého thresholdu zaplnění ipmi sel logu. Leda že by tam byla nějaká extra nestd. konfigurace..

Mcelog to bere přes jiné API a s IPMI se normálně vůbec nebaví.
Název: Re:Jak z logu identifikovat chybný paměťový modul?
Přispěvatel: Jenda 20. 10. 2018, 22:49:15
Možno sa mýlim, ale myslím si, že IPMI to hlási, len nejaký super-duper nástroj v tej linuxovej distribúcii to z IPMI prečíta, zapíše do syslogu bez toho, aby tam zapísal dostatok podrobností, a potom to z pôvodného IPMI logu proste zmaže.
To, co vidíme v syslogu, nesouvisí s IPMI, MCE je jiný typ (exceptions). Například některé moje stroje IPMI vůbec nemají a taky vyhazují MCE.