Fórum Root.cz

Hlavní témata => Hardware => Téma založeno: Feňák 23. 09. 2024, 10:16:03

Název: Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Feňák 23. 09. 2024, 10:16:03
Mám v počítači dva M2 disky, oboje nějaký Samsung 970 EVO. Mám z internetu staženou část ZIP archivu, na kterou, když spustim příkaz
Kód: [Vybrat]
7z t file.package.001, tak je vše v pořádku a objeví se mi "Everything is OK". Utilitou "cp" si ji zkopíruju na druhý disk. Vše proběhne v pořádku, ale když na tom druhém disku opět ověřím stejným příkazem ten zkopírovaný soubor, skočí to chybou a hláškou "ERROR: CRC Failed : fs-base-cgl/CGL/112/dem211.cgl". Provedu to samé kopírování třeba ještě dvakrát a na třetí pokus mi najednou 7z hlásí "Everything is OK" i u toho zkopírovaného souboru. Jak je to možné? To se nelze spolehnout na prosté kopírování mezi disky? Kdyby alespoň "cp" zahlásil nějakou chybu, ale on ne. Musím tedy při každém kopírování ověřit, jestli se zkopírovaly všechny bajty a je to otravné. Čím myslíte, že by to mohlo být? Cílový M2 disk je asi 6 let starý, zdrojový je starý rok.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: k3dAR 23. 09. 2024, 10:33:54
Jen si tipnu, mas problemove Samsungy a moc stary ci novy ci spatny FW (alespon v 1 nvme), to v kterem zkus overit kopirovanim do ram (coz mas cestu /dev/shm) a overeni tam...

Samsung je dlohodobe znam problemama v Linuxu, kdy Linux jadro dokola pridava nove a nove workaroundy aby ty chyby obesel...
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Václav Ovsik 23. 09. 2024, 10:37:18
Asi bych v první řadě začal hledat, kde se data liší. Pokud se to opravdu liší, tak je to celkem průšvih. Co nějaké zkoumání disku přes utilitu nvme? (device-self-test, self-test-log...)
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Feňák 23. 09. 2024, 12:20:57
Jen si tipnu, mas problemove Samsungy a moc stary ci novy ci spatny FW (alespon v 1 nvme), to v kterem zkus overit kopirovanim do ram (coz mas cestu /dev/shm) a overeni tam...

Samsung je dlohodobe znam problemama v Linuxu, kdy Linux jadro dokola pridava nove a nove workaroundy aby ty chyby obesel...
Tak jsem zkoušel různé pokusy s kopírováním do /dev/shm a mám poznatek. Vše funguje úplně na výbornou. Udělal jsem několik stovek testů s kopírováním jednoho, necelých 1GB, souboru. Z obou disků.

Posunulo mě to dál, protože potom jsem spustil Steam a v něm Microsoft Flight Simulátor (z něj je ten velký soubor). Test jsem znovu spustil a přibližně 10% kopií mělo CRC chybu. Vypnul jsem Steam a opět všechny soubory se zkopírovaly bez jakékoliv chyby. Problém bych tedy neviděl v discích, ale v něčem, co může ovlivňovat zápis na ně.

Kdybyste měli ještě nějaké tipy, byl bych rád. Zatím budu pátrat, co MFS ovlivňuje v systému, když je spuštěný.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Vít Šesták (v6ak) 23. 09. 2024, 12:34:59
Napadá mě otestovat RAM. Data z SSD půjdou z/do RAM. A spuštění nějakého programu může znamenat, že se zdravá část RAM použije na jiný účel.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Václav Ovsik 23. 09. 2024, 13:02:09
Problém při souběžném používání disku by mohl ukazovat na ten problem s firmwarem. Možná se zkusit podívat jak u disku NVME vypnout některé featury parametrem jádra. Zkusit to parametry nastavit do co nejtupějšího režimu a opakovat experiment s kopírováním...
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: NaRootuJeNeskutecneDebilniRegistracniFormular 23. 09. 2024, 16:58:56
Ja bych vsadil na spatnou RAM.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: jjrsk 23. 09. 2024, 18:09:31
Ja bych vsadil na spatnou RAM.
To by mu crashoval celej stroj a ne jen kopirovani. Videl bych to na ty disky. Nebo jeden z nich. A jelikoz dotycny nerika nic k tomu jak je pouziva, predpokladam, ze jeden je systemovy, a jelikoz system asi nepada, tak failovat bude ten druhy.

Jeste pripada v uvahu alternativa ta, ze ty disky blbe sdilej pci-e s necim dalsim, coz by sice vadit nemelo, ale ... jen dost pochybuju, ze se stim da neco udelat. Vyzkousel bych oba v jinym MB.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: RDa 23. 09. 2024, 18:12:17
Ja bych vsadil na spatnou RAM.

Ramkou to na 100% neni. To by mel BSOD co chvili.. on ma jenom spatna data na disku. Takze problem tech SSD.

Dalo by se to jeste odladit, zda to delaj oba, nebo jenom jeden - pri kopirovani na ramdisk/treti medium po jednom.

Existuji tooly, ktere umi vicevlaknove kopirovani - tak bych toho vyuzil.

Preventivne muzes vypnout ASPM v biosu, ale nevim zda mas moznost menit queue depth za behu..

.. ale jak uz nekdo zminil, jestli to je FW chyba, tak muzes zacit zalohou a pak upgrade fw pres Samsung Magician.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Vít Šesták (v6ak) 23. 09. 2024, 19:39:57
Těžko říct:

1. Z popisu nevím, jestli pozoruje i jiné problémy.
2. Pokud to vyjde tak, že aplikace a OS jsou v dobré části RAM, nemusí nic zlobit. A u kernelu je celkem realistické, že se problematické části RAM vyhne.
3. Na druhou stranu, pokud zlobí zápis nebo čtení na SSD, dříve či později čekám padání aplikací či OS. Takže tímto to od vadné RAM neodlišíme.

Jinak ano, zjištění, jestli zlobí obě SSD, může taky dát podstatnou informaci, jestli bude problém v SSD, nebo jinde. (Ano, Murphyho zákon říká, že budou obě SSD vadná, a člověk bude hledat problém jinde. Už se mi něco podobného stalo…)
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Feňák 24. 09. 2024, 11:10:26
Rano jsem zkousel kopirovat na plotnovy externi disk. Nejdriv to vypadalo slibne, ale pak jsem zacal pozorovat chyby. Zajimave bylo, ze to, co jsem zkontroloval na externim disku, bylo po zkopirovani dalsich X GB zase rozbite. Nainstaloval jsem memtest64+ a zkontroloval vsechny 4 32GB RAMky. Ty starsi 2 hlasily nejake chyby uz u testu #2. Dokontroluju ty mladsi a zkusim nechat v dualchannelu jen ty dve novejsi, bez erroru. A uvidime, co se stane pri tom kopirovani. RAM muze mit vliv na operace s diskem, ne?

Jeste pro upresneni dodam, ze obcas mi spadnul Gradle pri kompilaci. Pomohlo nastavit max. vyuziti RAM na 50%, pak to uz nepadalo. S padanim OS problem nikdy nebyl. Obcas mi vytuhla graficka karta a shodily se Xka, to ale az poslednich 14 dni, co jsem poridil novou grafiku (thread k tomu je v sekci Desktop tady na Rootu).
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Vít Šesták (v6ak) 24. 09. 2024, 11:21:57
Vadná RAM může být dost nevyzpytatelná. Nemusí nutně být vadná celá, a pak je to loterie, co se trefí do vadné části. Navíc problém se nemusí projevit pokaždé.

Kernel je celkem malý, a sám o sobě asi nepotřebuje kdoví kolik RAM pro data (nepočítám aplikace a cache), takže kernel panic nemusí nastávat, nebo jen zřídka.

Ano, čtení a zápis půjde přes RAM, a může být ovlivněn vadnou RAM. Pamatuju si, jak při vadné RAM mi při stahování opakovaně neseděl hash, a to pokaždé jinak.

Skoro bych se vsadil, že bez té vadné RAM to už pojede dobře.

Nová grafika je s otazníkem. Může to být náhoda (RAM se pokazila v nevhodnou dobu), může to znamenat, že najednou driver využívá jiné části RAM, a něco se trefí do té vadné.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: NaRootuJeNeskutecneDebilniRegistracniFormular 24. 09. 2024, 11:37:49
Ja bych vsadil na spatnou RAM.

Ramkou to na 100% neni. To by mel BSOD co chvili.. on ma jenom spatna data na disku. Takze problem tech SSD.

Ehm.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Rovano _ 24. 09. 2024, 13:11:02
Tak pokud je to jen RAM, tak to máš dobré a hurá padla.

Vadná RAM se samozřejmě nemusí nikdy ani odhalit a nečemu zdánlivě vadit. V nejhorší nouzi se dá kernel nastavit, ať část nevyužívá.

Nemohla by to být jen nekompatibilita těch dvou sad modulů? Otestoval bych je sólo.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Feňák 24. 09. 2024, 13:40:06
Nemohla by to být jen nekompatibilita těch dvou sad modulů? Otestoval bych je sólo.
Zkusím, ale nemyslím si. Všechny jsou úplně stejné, stejný výrobce, stejný typ, stejné časování. Liší se jen rokem výroby. Ty starší maj na sobě "2020 November" a ty novější "2021 October".
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: marder 24. 09. 2024, 14:17:30
NVMe disky jsou velice spolehlivé. Pokud nereportujou chyby ve svých logech anebo kernel sám tak kromě vadné paměti to může být přehřívající se chipset. Což není teorie, ale někde se to opravdu řešilo a byl odhalen nedolehajici chladič/pasta. Samsungy jsou typicky rychlé disky a rychlými transfery dají zabrat.

Můžeš zkusit v BIOSU snížit generaci PCI-E na nejnižší a tím omezit jejich rychlost anebo zkus pustit extra ventilátor na chipset a monitorovat jeho teplotu přes HWiNFO, hlavně teda max dosaženou. A udělat retest.

Možná by bylo i dobré zde napsat jaké máš CPU, mobo, RAM.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Feňák 24. 09. 2024, 16:04:48
Po odebrání těch dvou starších RAM jsem zatím nezaznamenal žádný problém. Kopírování už bez chyb. Budu to ještě pozorovat, ale myslím, že to bylo těma RAMkama.

Pro úplnost ještě uvedu jejich typ: https://www.czc.cz/g-skill-ripjaws-v-32gb-2x16gb-ddr4-3600-cl16/293117/produkt.
CPU mam AMD Ryzen 9 5900X

Trochu mě teda štve, že 4 roky staré RAM, tenkrát za 5 tisíc Kč, jsou teď nepoužitelné :( Předpokládám, že opravit se to nedá. Maximálně zakázat chybné sektory?
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: marder 24. 09. 2024, 16:17:09
No, predpokladam ze si mel moduly 4. Pokud dokupy nejely, tak to nemuselo byt zrovna modulama, ale ze nebyly kompatibilni s touto platformou. Taky jsem si uzil hledani proc mi 3950X dela psi kusy.  Postupne jsem dosel, dle motherboard RAM compatibility list, k tomu ze zrovna tento modul je kompatibilni jenom ve 2 kusech. Tak jsem je prodal a ikdyz uz mam ted jinouch desku a jiny Ryzen, tak jsem se poucil a pouzivam univerzalni pravidlo 2 moduly max.
Ono kdyzpak si zkousis pretaktovat moduly 4, tak nedosahnes takove max frekvence jak se 2-ma a to je prvni varovani.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Vít Šesták (v6ak) 24. 09. 2024, 17:29:15
Nižší maximální frekvenci pro více než 2 moduly jsem už na desce pro Zen 3 viděl. Procesor má dva paměťové kanály. Více než 2 moduly zřejmě znamená, že to musejí řešit nějaké další obvody na desce, které asi seskupí 2 moduly do jednoho kanálu. Radši jsem tedy bral 2*32 než 4*16.

Zakázat chybné části RAM nějak lze, nikdy jsem to nezkoušel. Otázka ale je, jestli se dříve či později nezačnou objevovat chyby i v dalších částech RAM.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: marder 24. 09. 2024, 17:42:13
2 moduly maji drahy na desce vice vzdalene od sebe, protoze jeden slot je mezi nima vynechany. Proto mensi sance preslechu a vetsi dosazena frekvence. Neco mozna udela i periodicky refresh vsech 4 pameti na 2 kanalovem radici = vice prace pro radic ikdyz system s nima nepracuje.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: e3k 24. 09. 2024, 18:27:09
prednedavnom som pisal o tom istom Samsungu: https://forum.root.cz/index.php?topic=28618.15
uz je to reklamovane/vratene.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Vít Šesták (v6ak) 24. 09. 2024, 18:32:24
No, vadné může být leccos (a já též úspěšně reklamoval 970…), nicméně řekl bych, že jde o odlišné symptomy, a souvislost mezi těmito třemi případy nevidím.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Marek Staněk 25. 09. 2024, 15:44:37
Já bych se s dovolením ze všeho nejdřív zeptal, jestli ta chyba je vždy v jednom směru, nebo v obou. Pokud jen v jednom, tak je to IMO celkem jednoznačně to cílové SSDčko.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Vít Šesták (v6ak) 26. 09. 2024, 11:35:19
Tak hlavní podezřelý je zřejmě RAM. Pokud by problém nastával vždy v jednom směru, může být problém v SSD, ale otázka je, jestli při čtení, nebo při zápisu.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: FactChecker 26. 09. 2024, 17:53:36
Nemusí to být zrovna RAM. Tyhle Samsungy mají(měly), jak problém s TRIMem tak i s NCQ. Což se typicky projeví, když na disk zapisuje více  procesů. Viz https://www.root.cz/zpravicky/ssd-samsung-860-a-870-maji-problemy-v-linuxu/
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Vít Šesták (v6ak) 26. 09. 2024, 18:38:35
Tak nemusí, ale jestliže tázajícímu dva moduly neprošly přes memtest, bral bych RAM jako hlavního podezřelého…

Odkázaný článek se týká jiných modelů, a nejspíš jen SATA, nikoli NVMe. Navíc to Linux řeší blacklisted…
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: FactChecker 26. 09. 2024, 19:07:34
Máte pravdu, ty chyby při memtestu jsem přehlédl. Takže bych se také přiklonil na to, že za to může chybující RAM.

Ano článek se týká jiných modelů, bylo to jen na ukázku, že může jít i o nekompatibilitu s deskou (ale u NVMe méně pravděpodobné).
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: hungarec 27. 09. 2024, 13:10:51
Po odebrání těch dvou starších RAM jsem zatím nezaznamenal žádný problém. Kopírování už bez chyb. Budu to ještě pozorovat, ale myslím, že to bylo těma RAMkama.

Pro úplnost ještě uvedu jejich typ: https://www.czc.cz/g-skill-ripjaws-v-32gb-2x16gb-ddr4-3600-cl16/293117/produkt.
CPU mam AMD Ryzen 9 5900X

Trochu mě teda štve, že 4 roky staré RAM, tenkrát za 5 tisíc Kč, jsou teď nepoužitelné :( Předpokládám, že opravit se to nedá. Maximálně zakázat chybné sektory?

Zkus ty odebrané RAM moduly otestovat jednak samostatně a jednak společně (mimo ty 2 moduly co jsi v desce nechal). Zřídkakdy jsem se setkal s tím že Memtest vyhazoval chyby RAM ale když jsem moduly testoval samostatně tak byly OK. Vadná byla základní deska - moduly v jiné desce (ať už single nebo v dual channelu) fungovaly OK.
Typicky když narazím na chybu RAM v Memtestu tak testuju:
1) všechny moduly tak jak jsou provozovany (v tvém případě 2+2 v dualchannelu)
2) každej modul zvlášť
3) kombinace (1+1 moduly v dualchannelu)
4) moduly v jiné základní desce

Další věc je že ty moduly asi nejsou provozovány na JEDEC konfiguraci...
Ovšem jak říkám, setkal jsem se s tím jen "občas", většinou je opravdu chyba v modulu RAM.
Název: Re:Podivné kopírování mezi dvěma NVMe disky
Přispěvatel: Feňák 27. 09. 2024, 17:44:56
Já ty RAMky testoval všechny najednou a pak každou zvlášť (vždy ve stejném slotu). S tou jednou mi nenaběhnul počítač vůbec a ta druhá vyhazovala stovky chyb v memtestu. Zbylé dvě (ty novější) byly bez problému. Zatím jsem je odebral a nezaznamenal jsem už žádný problém při kopírování.