Memtest hlásí v jednom testu chybu

Memtest hlásí v jednom testu chybu
« kdy: 19. 11. 2024, 15:01:57 »
Zdravim,v memtestu a testovani RAM nejsem kovany, ale po koupi noveho PC jsem ho projel. DDR5 SO DIMM 4800   2x32G, dual.Defaut setting, zadne ambice na overclock.


memtest86+ uefi 11
A teď:
V jednom testu (jenom jednom z 14) a to 10 (FADE TEST) mi to hazí 1500 /3000 Chyb na drese 0x7Bxxxxxxxx až 0x7D000000 (neboli 1950-1980MB), nezávisle na zvoleném jádře.


DO vyndavání slotů jsem se nepouštěl, BIOSU neoruzumi (AMD Ryzen, Advanced, AMD CBS, UMC  Common opi´tions sekce ... španelská vesnice) ani nevim jak vypnout dual channel) , mimoj jiné menu má další podsekce DDR timinh, bus config, Cntrlr Cfg, RAS, SECURITY, Address opts, Training, MBIST ... tyo nedávám
nic to neděalo -bandwith zustal stejny (adressing option, interleave auyo na disabled)
Je to chyba nebo známý false positive? 
-fade test
memory range  - memtest ukázal že má jít o ACPI Range


Napovíte něco k tomu?

Winows nepadal, ale netestoval jsem ho víc ja den....
V ttomto testu 10 a ještě  jednom je prodleva 300s.



BTW, proč  memtest v benchmarku ukazuje badwidth kolem 32GBps pro nizke size a při běhuv levem sloupci (radky  L1,L2,L3 ) ctvrty radek memory ukazuje 52.7 GBps , a po startu ukazuje neco jako 53281 MBps?
 Teoreticky by melo byt 76800MBps (2chan)


Re:Memtest hlásí v jednom testu chybu
« Odpověď #1 kdy: 19. 11. 2024, 15:45:47 »
Máte tu poslední verzi 7.20?

Fade test asi není false positive. Asi to ukazuje, že se nedostatečně refreshuje, možná vadný modul? S DDR5 nemám zkušenosti. Je možnost to hlásit jako issue na githubu: https://github.com/memtest86plus/memtest86plus/issues

Tomu benchmarku v memtestu se nedá moc věřit.

Pro jistotu bych zkusil memtest86 bez plus, teda tu free verzi. Se mi zdá, že detekuje chyby častěji a spolehlivěji než memtest86+. https://www.memtest86.com/download.htm


Podle toho, jestli taky ukáže chybu, tak bych vyndal jeden modul, druhý modul. Vadnou paměť reklamoval. Zkusil ještě jiný test. Doporučuje se třeba google: TM5 + Extreme by anta777.

k3dAR

  • *****
  • 3 045
  • porad nemam telo, ale uz mam hlavu... nobody
    • Zobrazit profil
    • E-mail
Re:Memtest hlásí v jednom testu chybu
« Odpověď #2 kdy: 19. 11. 2024, 16:03:55 »
Btw: sice tazatel pise s plus ale verze 11, coz je prave ta bez plus verze od passmarku

Re:Memtest hlásí v jednom testu chybu
« Odpověď #3 kdy: 19. 11. 2024, 16:09:14 »
Aha, jasně. No tak zkusit verzi s plus. Reklamace modulu s fotkou z memtestu by měla být v pohodě.

CPU

  • *****
  • 878
    • Zobrazit profil
    • E-mail
Re:Memtest hlásí v jednom testu chybu
« Odpověď #4 kdy: 19. 11. 2024, 17:15:28 »
POZOR
DDR5ky mají integrované ECC, takže část chyb se opraví interně a starší verze utilit se o nich nedozví.
A navíc v těch utilitách je hrozný bordel a prase aby se vyznalo v tom, která verze memtestů (komerčního/nekomerčního) je fakt dobrá = dokáže zjistit chyby i pod ECC.

Půl(?) roku zpátky jsem měl problém s jednou ramkou a musel jsem jí šupnout do Fujitsu, abych problém ověřil.
V jednom Fujitsu mám utilitu, která mi ukázala, že paměť házela chyby co 3 minuty, ale interní ECC to opravovalo a probublala jen jedna chyba z několika tisíc.

Komerční i nekomerční verze memtestu se tvářily hrozně spokojeně, byť si to tam naspodu krásně hnilo :-/


Re:Memtest hlásí v jednom testu chybu
« Odpověď #5 kdy: 21. 11. 2024, 17:57:45 »
ECC u DDR5 je komplikovanější. On-die ECC (128+8bit) mají povinně všichni, ale systém se nijak nedozví, že k opravě chyby došlo.

K tomu navíc modul může mít (ale nemusí) Inline ECC, Side-band ECC, nebo Link ECC (64+8bit). Ty pak hlásí přes EDAC, že došlo k opravené chybě (CE). Stačí kouknout do třeba /sys/devices/system/edac/mc/mc0/rank0/dimm_ce_count

https://www.memtest86.com/ecc.htm

CPU

  • *****
  • 878
    • Zobrazit profil
    • E-mail
Re:Memtest hlásí v jednom testu chybu
« Odpověď #6 kdy: 21. 11. 2024, 19:53:52 »
ECC u DDR5 je komplikovanější. On-die ECC (128+8bit) mají povinně všichni, ale systém se nijak nedozví, že k opravě

A prý je to ještě komplikovanější, protože se hodnoty dají vyčíst čistě i u On-Die ECC, ale netuším, jak moc specifické to je pro výrobce. A aby to bylo ještě komplikovanější, někteří výrobci údajně povinné On-Die ECC ignorují  ::)

Naprosto tragická situace je na Alza:
U notebookových je prd: https://www.alza.cz/pameti-do-notebooku/18843127.htm
ECC je zmíněno jen u těchto modulů: https://www.alza.cz/patriot-viper-venom-32gb-kit-ddr5-6200mhz-cl40-d7159763.htm

U těch je zmíněo ECC...ale je to ECC, ze které ho něco vyčte? A datasheety jsou dneska jen bezcenný list papíru, kde je vlastně pendrek a parametry se klidně mění :-(
Ostatní paměti, NĚKTERÉ, mají v datasheetech taky občas ECC, ale jiné prostě vůbec. A jen u dvou je jasné, co to je za typ ECC...nedávno jsem to hledal...
A nezmíněný výrobce se rozhodl, že bude ignorovat i OnDie ECC :-D

RDa

  • *****
  • 2 729
    • Zobrazit profil
    • E-mail
Re:Memtest hlásí v jednom testu chybu
« Odpověď #7 kdy: 22. 11. 2024, 19:54:06 »
A prý je to ještě komplikovanější, protože se hodnoty dají vyčíst čistě i u On-Die ECC, ale netuším, jak moc specifické to je pro výrobce. A aby to bylo ještě komplikovanější, někteří výrobci údajně povinné On-Die ECC ignorují  ::)

On-Die ECC je transparentni - host nema zadnou moznost zjistit zda tam je, nebo neni a zda k oprave doslo ci nikoliv. Jestli existuje nejaky management channel primo pro cipy, tak mozna lze vycist pocitadla (ale spis pochybuji).

Pak uz existuji jenom 2 varianty: non-ECC moduly (2x32bit) a true-ECC moduly (2x40bit, side-band ECC) ve variante unbuffered a registered. S tim ze u toho registered (RDIMM) tam je jinej vyrez a neni to kompatibilni s UDIMM slotem.

Zda ma nejaka platforma podporu pro ochranu transportu skrze vypocitanou magii ... coz nekteri nazyvaji link-ecc, ale ja bych to rovno prekrtil na FEC, protoze je to ucelem a zpusobem stejny, tak to netusim. Spis je to zalezitost pro LPDDR5, nez pro klasicke consumer moduly.

Pokud neni jasna specifikace z DS, tak to nekupujte. Neni nic horsiho nez nekompetentni dodavatel, ktery neni schopen ani napsat dokumentaci, nebo prepsat logo od sveho subdodavatele :D

Re:Memtest hlásí v jednom testu chybu
« Odpověď #8 kdy: 22. 11. 2024, 21:54:42 »
Hypoteticky, může být vadný slot, i to jsem zažil, ale tam bych očekával, že modul nenajde vůbec nebo to jakýkoli modul v takovym slotu udělá mnohem větší nepořádek .
Nemám na to teď moc čas, minimálně  to testování kterého vadného slotu/modulu by šlo o čtvrtpůlhodinutestování (4 kombinace slot×modul) pokud každý test čeká 5 minut + vypnutí + zapnutí + výměna.

Aléée našel jsem jeden, možná relevantní thread ... Když jde  tu oblast ACPI range (nebo ACPI config space) ... Moment ., 6 minut googlení,16 minut googlení : tohle je přesně ten jeden thread na= celém internetu:
Citace: 2013
So I'm tentatively concluding that this is a bug in Memtest86's Bit Fade check, resulting in a false error. And I think my memories are working just fine.

I am using a USB wireless keyboard and mouse setup (Logitech MK520). From the revision history of Memtest86, it appears that in the past the USB keyboard devices were memory mapped, and so keyboard input sometimes wrote to memory, and that resulted in the corruption of the test. But it looked like that problem was fixed. Could that still be going on in my case? Remember, Memtest86 only fails the Bit Fade test when I select it manually (by using the keyboard). When it runs in its automated start-up loop, it passes the Bit Fade test without errors.
Nemůže to být něco takového? Sice bych se  divil, že by to memtest po 11 letech neopravil, ale co kdyby náhodou...

Nápady:
parametr nosmp
vypnutí/redukce ACPI v BIOSU
memtest v režimu BIOS místo UEFI efi image.
« Poslední změna: 22. 11. 2024, 21:56:41 od Vietnamka »

CPU

  • *****
  • 878
    • Zobrazit profil
    • E-mail
Re:Memtest hlásí v jednom testu chybu
« Odpověď #9 kdy: 22. 11. 2024, 22:06:40 »

V Memtestu byla léta neopravená chyba v případě, kdy se použilo nastavení SMP, tak to dávalo false positive chyby.
https://bugzilla.redhat.com/show_bug.cgi?id=1432562

To tam bylo mnoho a mnoho let, protože se to nikomu nechtělo opravovat a ten projekt byl polomrtvý.
Právě proto se vydělily ty různé "jakoplacené" varianty, které se to snažily řešit a z jednoho produktu vznikly (dva?), tedy celkem tři(čtyři?) varianty...

Pak tedy otázka: Je to možné?
Má dost jasnou odpověď: Není důvod se tomu divit...

Re:Memtest hlásí v jednom testu chybu
« Odpověď #10 kdy: Dnes v 00:12:57 »
No a dá se s nějakou spolehlivostí udělat závěr, co znamená 1 failnutý test 10 Bit fade test, v pokaždé stejném rozsahu?Jestli pokud by byla paměť vadná, tak by se očekávalo, že failnou i další testy. ? :-* A nebo se ponořit do forků memtestu. a pustit se to modulové kombinatoriky (ještě že jde jen o 2 kousky a 2 sloty, chudáci threadtrapeři s 4 moduly 8 slotech)

U toho testu a u té čekací doby 300s to vyznívá, že buď dojde k změně bitu (neudrží hodnotu) a nebo že právě něco programově přepíše paměť (ACPI tabulka, aktualizace device tree, memory I/O)

 (Byl tam i nějaký dovětek, že u každé chyby to píše něco jako expected-actual, a u tohoto bylo něco jako inverted bits 0x0000FF00)
chtěl jsem si udělat fotku telefonem, jenže ten za*raný android po 5 sekundách ukončil aplikaci kamera a po dalším spuštění se ani aplikace Kamera nespustil a hlásilo to nějakou hlášku Chyba spouštění fotoaparátu. (a to jsem nevěděl, že to umí screenshot)

Když koukám na ty rychlosti pamětí,  má význam a je důležité na ně dávat chladič? Navíc jde o SO-DIMM v "notebookovém" šindelovém zákrytu a ne na desku-kolmo trčící jako v desktopech. 1.1V 5600

Když běžel memtest, tak se mi zdálo, že spodek (kde ramky jsou) byl dost teplý. On tam je sekundární větráček.
« Poslední změna: Dnes v 00:14:49 od Vietnamka »