Fórum Root.cz

Hlavní témata => Software => Téma založeno: DrFreeze 12. 06. 2025, 18:03:02

Název: Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 12. 06. 2025, 18:03:02

Domácí server s Debianem 12: stáhnu přes wget soubor a nesedí md5. I apt-get update hlásí u některých položek neshodu kontrolních součtů.
- soubor jsem zkoušel stáhnout na SSD i HDD (md5 nesedí na obou umístěních, tedy problém s úložištěm vylučuji).
- soubor jsem stáhl na flash na notebooku, md5 sedí. Kopie přes scp na server - md5 nesedí.
- kopie z notebooku na flash a z ní na server - md5 sedí.
- memtest OK.
- z toho všeho jsem usoudil na blbnoucí síťovku (když přenos jinou než síťovou cestou byl OK), takže jsem rozjel USB siťovku: bohužel i přes ni součty nesedí.
Vypadá to na SW problém, ale nevím, jak to diagnostikovat.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Sox37 12. 06. 2025, 18:50:54

Jaký memtest a jak dlouho jste ho nechal běžet?

Píše něco dmesg?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Sox37 12. 06. 2025, 18:52:53

SW můžete vyloučit nabootováním nějakého live distra z USB.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: vcunat 12. 06. 2025, 20:27:59

Kopie přes scp nesedí? Přes šifrované spojení? To asi nemůže být sítí ani síťovkou.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: CFM 12. 06. 2025, 20:54:36

Špatný hash vyjde vždy stejně? Velikost poškozeného souboru je OK? Jak dopadne binární porovnání (úplně jiný, částečně, ...)?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák 12. 06. 2025, 21:11:28

Odkud kam stahujete soubor wgetem? Z domácího serveru s Debianem na nějakou pracovní stanici nebo notebook? Ten apt-get update hlásil chybu, když jste ho spustil na serveru? Že by se soubor přenesl přes síť šifrovaným kanálem, šifrované spojení by neselhalo ale data uvnitř přenosu byla poškozená je extrémně nepravděpodobné. TLS zajišťuje i integritu přenášených dat.

Nejsou data poškozená na disku na serveru? Když počítáte hash přímo na serveru, je správně? Pokud by byla poškozená část disku, mohou být některé zápisy OK a jiné ne. Případně když jste testoval nahrání souboru a pak opětovné stažení, mohl být soubor ještě v paměti. Nešifruje vám data na serveru ransomware?

A opravdu používáte v roce 2025 ke kontrole integrity souborů MD5?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LolPhirae 12. 06. 2025, 22:31:07

To mi připomíná jistý bug VIA chipsetu v prehistorii.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Michal Šmucr 12. 06. 2025, 23:39:57

To je fakt prapodivné podle popisu.
Jak už tu bylo zmíněno v předchozím postu, tak tím že jste zkoušel SCP přenosy, tak je téměř vyloučené, že by se data jakkoliv měnila při síťovém přenosu. Jsou tam jak TCP checksumy (takže by se ty pakety případně posílaly znovu), tak nad tím MAC v SSH vrstvě (když by to nesedělo, spojení se rozpadne).
Takže ten problém s největší pravděpodobností nastává při čtení/zápisu souboru z toho serveru a to, co už jde tím síťovým kanálem je nakopnuté.
Nejsou na serveru nějaké podezřelé hlášky v dmesg nebo obecně žurnálu?

I když se vyloučí síťování, může být pořád docela dost elementů, co to může způsobovat. Od disků, přes paměti, CPU, základní desku atp.
Já pokud to jde, tak většinou začínám tím, že pokud to jde, tak celý počítač třeba na minutu vypnu a odpojím od sítě. Už se mi párkrát stalo, že nějaká komponenta prapodivně blblnula (včetně třeba vadného disku, řadiče, desky, dimmu) a po čerstvém startu to slavnostně zheblo úplně, takže se to aspoň dalo vyměnit.

Když se to bude zdát v pohodě, a naběhne to bez chyb, tak integrita zápisů a čtení (přes fs do souboru) se dá docela v pohodě otestovat například programem fio (jsou tam verifikační parametry, různé patterny atp.).
U procesorů a pamětí (mimo memtestu) pořád v případě potřeby používám Prime95, resp. mPrime v CLI verzi. Hodina s torture testem a velkým FFT nebo blendem většinou pomůže odhalit dost problémů.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: mark42 13. 06. 2025, 08:52:53

Ten wget je naozaj prapodivny...

Spominane SCP je naozaj SCP? Nie je to SFTP s nejakym sialenym nastavenim, ktore zmrsi binarku lebo ju prenesie ako text?

Notebook a server su na rovnakej sieti? Nie je na sieti so serverom aj nejaky aplikacny firewall ktory by do prenosu mohol teoreticku zasiahnut?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 13. 06. 2025, 09:40:13

Nasdilej dobrou a spatnou binarku, mrknem co za poskozeni tam nastalo.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 13. 06. 2025, 09:44:19

Citace: Filip Jirsák 12. 06. 2025, 21:11:28

A opravdu používáte v roce 2025 ke kontrole integrity souborů MD5?

Ke kontrole integrity souboru staci klidne CRC-32, ale s MD5 je to lepsi.

Phase-out MD5 nastal pouze pro kryptograficke ucely (podepisovani, HMAC, atd).

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 13. 06. 2025, 14:44:05

Citace: RDa 13. 06. 2025, 09:44:19

Citace: Filip Jirsák 12. 06. 2025, 21:11:28
A opravdu používáte v roce 2025 ke kontrole integrity souborů MD5?

Ke kontrole integrity souboru staci klidne CRC-32, ale s MD5 je to lepsi.

Phase-out MD5 nastal pouze pro kryptograficke ucely (podepisovani, HMAC, atd).

Ale používat MD5 pro kontrolu integrity souborů nedává smysl. Třeba BLAKE3 je bezpečnější a rychlejší.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LolPhirae 13. 06. 2025, 16:57:25

Neblábol naprosto mimo téma, Jirsáku.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Jose D 13. 06. 2025, 17:10:41

vystav si někde soubor plný nul/áček/oblíbeného hex patternu a sosni si ho tím serverem, Co se tam změní, je to random, jeden bytík, jeden bitík, nebo je tam nějaký payload?

Projevuje se to od nějaké velikosti, nebo od jednobytového souboru?

Co jsem v oboru se mi něco podobného stalo snad jen jednou když jsem měl bug na nfs serveru..

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomas-T 13. 06. 2025, 17:14:03

MD5 samozřejmě pro kontrolu integrity smysl dává, ale je pravdou, že BLAKE3 je výrazně rychlejší, blíží se rychlostí CRC32.

Rychlost při hashování 1 GB souboru:
Algoritmus Čas (přibližně) BLAKE3 ~0.3 s CRC32 ~0.2 s MD5 ~1.0 s SHA-1 ~1.5 s SHA-256 ~2.5 s RIPEMD-160 ~3.0 s

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: -- 13. 06. 2025, 20:33:59

Zkusit jiný switch ?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Jan Fikar 13. 06. 2025, 21:12:30

Citace: Tomas-T 13. 06. 2025, 17:14:03

MD5 samozřejmě pro kontrolu integrity smysl dává, ale je pravdou, že BLAKE3 je výrazně rychlejší, blíží se rychlostí CRC32.

Rychlost při hashování 1 GB souboru:
Algoritmus Čas (přibližně) BLAKE3 ~0.3 s CRC32 ~0.2 s MD5 ~1.0 s SHA-1 ~1.5 s SHA-256 ~2.5 s RIPEMD-160 ~3.0 s

Blake3 (b3sum) se navíc hodí i na crypto. Jestli je to jen kontrola proti HW chybě, tak je možné použít xxhash, který je ještě rychlejší:

https://github.com/Cyan4973/xxHash

Jinak bych si myslel, že může být problém s CPU, cache, přetaktováním, napětím CPU ...

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Martin Poljak 13. 06. 2025, 21:35:46

Citace: Jan Fikar 13. 06. 2025, 21:12:30

Jinak bych si myslel, že může být problém s CPU, cache, přetaktováním, napětím CPU ...

Jednou se mi kdysi stalo, že jeden jediný konkrétní soubor na internetu měl při stažení přes naší linku (nějaké ADSL tehdy) vždy tuším třetí a čtvrtý bajt špatně. Když jsem ho stáhl kdekoliv jinde, byly vždy správně. A vše ostatní doráželo tak, jak mělo. Svět je holt malý a o náhody tu není nouze. A někdy se ději fakt divné věci.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: marder 14. 06. 2025, 11:02:43

To by mě zajímalo jak by si s tím poradil rsync a v případě chyby jeho opakované použití s parametrem -c jako checksums.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 14. 06. 2025, 15:02:41

Pokusím se odpovědět na většinu otázek:
- memcheck puštěn přes Grub
- jedná se o instalační zip Nextcloudu (31.0.5) a porovnávám s md5 staženým z téhož serveru
- md5 jsem použil jako nejdostupnější metodu ověření (nebylo třeba nic instalovat) a myslím, že pro základní ověření stačí

Co jsem stihl vyzkoušet:
- stažení za použití live distro (konkrétně USB flash s Gparted) na shodném HW: md5 sedí(!)
- znovu stažení na ntb, ověření md5 (tady samozřejmě sedí) a v terminálu scp na server - md5 nesedí(!)
- diff použitý na zip stažený wgetem (na serveru) a souborem poslaným na server přes scp hlásí, že se liší

Večer nebo zítra zkusím rsync plus vytvoření a stažení kontrolního souboru.

EDIT: ještě jeden pokus o stažení wgetem na serveru, tentokrát na RAID1 (předtím na systémový SSD): asi 3x hlášena chyba při dešifrování. md5sum vypíše rozdílné hashe souborů na RAIDu, na SSD i toho poslaného přes scp. Všechny tři se liší od správného hashe.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 14. 06. 2025, 20:06:08

Citace: DrFreeze 14. 06. 2025, 15:02:41

- diff použitý na zip stažený wgetem (na serveru) a souborem poslaným na server přes scp hlásí, že se liší

Pokud chcete pouzit diff na binarku, tak musite prvne prevest binarku na text - treba hexdump -Cv <a.zip >a.hex, pak diffujete ty hexy

Prvne ale overte delku souboru zda se nelisi (typicka sitova chyba je dropnuti spojeni, duvod zatim neresme).

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Jan Fikar 14. 06. 2025, 22:00:56

a po kontrole délky, jestli jsou vždy stejné?

jaké jsou ty vadné md5? jsou všechny stejné, nebo je to pokaždé jiné?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák 15. 06. 2025, 09:51:03

Zkoušel jste spočítat hash souborů opakovaně? Jak těch, které měly hash na první pokus správně, tak těch, které ho měly špatně. S nějakým časovým odstupem, a mezi tím nechat přečíst nějaké jiné velké soubory, aby se ty, jejichž hash počítáte, vytlačily z paměti a musely se znovu přečíst z disku.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Jan Fikar 15. 06. 2025, 11:40:27

vytlačit z paměti jde i jednoduše ručně

Kód: [Vybrat]

echo 3 | sudo tee /proc/sys/vm/drop_caches

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Ħαℓ₸℮ℵ ␏⫢ ⦚ 15. 06. 2025, 12:24:49

Je k dispozici na serveru i jiné součty než md5?

Je 'which md5sum' a which wget něco nestandartního? Nebo alias .Jak je voláno. Pozor například na trailing mezery: echo ahoj |md5sum vs cat ahoj.txt I md5sum vs md5sum<ahoj.txt vs echo -ne ahoj|md5sum
Pokud se md5 liší, liší se se i soubory? Lze otestovat diffem nebo sha256sum (oba soubory), nevadí že servr nenabízí sha256 soucet.asc.

Dochází k přerušení spojení? Je wget volá npodivně , třeba jako wget --progress -verbose -S &>/soubor.shlavickamiavsimmoznym.deb

Ps : existuje utilita hexdiff? Nebo parametr pro hexfriendly compare?
Nebo vysvetleni, nepravděpodobné: server posílá dynamický soubor, podle hlaviček,country,sec-uaplatform x86,arm nebo user agent (ubuntu :deb, fedora rpm,)ale to je divoká představa

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 16. 06. 2025, 20:00:00

wget volám úplně obyčejně, ale k přerušování spojení dochází (na notebooku ne).

Soubory na serveru z různých pokusů mají shodnou velikost, ale rozdílné md5. Budu je ještě muset převést do podoby porovnatelné diffem.

Vytvořil jsem si 100MiB soubor vyplněný nulami a umístil na svůj web. Dva pokusy o stažení na domácí server dopadly normálně, tj. stažené soubory mají shodnou velikost a shodné md5.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 16. 06. 2025, 20:30:05

Citace: DrFreeze 16. 06. 2025, 20:00:00

wget volám úplně obyčejně, ale k přerušování spojení dochází (na notebooku ne).

Soubory na serveru z různých pokusů mají shodnou velikost, ale rozdílné md5. Budu je ještě muset převést do podoby porovnatelné diffem.

Dela to i vuci jinym serverum?

WGET muze zkusit retry na http, skrze "http range request", takze je mozne, i to, ze ten range se blbe interpretuje na strane serveru.

Pokud ale k preruseni dochazi - tak doporucuji paralelne pustit zaznam vcetne celych paketu - tcpdump -i eth0 -s 0 port 80 (nevim zda se zminovalo zde http nebo https). HTTPs muze padat, kdyz TLS pozna ze se sifrovani rozbilo.

Hlavne - poznacit si lokaci kde k padu doslo, a pak to porovnat s lokaci kde je diff. Je mozne, ze urcity sifrovaci blok (16 byte napr) bude zcela nahodny - tj. TLS propustilo neco co nemelo.

Ten prevod k diffovatelne podobne je fakt nejjednodussi skrze hexdump -Cv .. pak vidite jak hex data, tak ascii nahled.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Vít Šesták (v6ak) 17. 06. 2025, 10:51:37

Pro porovnání dvou binárních souborů stejné délky tu je vbindiff. (U různé délky tuším padal.)

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: rennergy 17. 06. 2025, 11:35:15

Na binární porovnání souborů je zde program cmp. Běžně s ním kontroluji, zda se iso obraz zapsal na flashdisk správně - pokud ano, zahlásí "EOF" na místě počtem bajtů shodném s velikostí iso obrazu.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 18. 06. 2025, 19:35:16

Dnes se mi podařilo vyzkoušet připojit server jiným kabelem k jinému switchi - výsledek stejný, tj. stahování wgetem z nextcloud.com přerušované.
Také jsem vyzkoušel apt-get update a i v tomto případě dostávám chyby kontrolních součtů.
K porovnávání stažených souborů z různých pokusů se teprve dostanu.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LamZelezo 18. 06. 2025, 20:46:50

Vymenit pameti a vyzkouset.
Pokud nepomuze, vymenit zdroj a vyzkouset.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: hungarec 19. 06. 2025, 11:10:23

Citace: DrFreeze 14. 06. 2025, 15:02:41

Co jsem stihl vyzkoušet:
- stažení za použití live distro (konkrétně USB flash s Gparted) na shodném HW: md5 sedí(!)
- znovu stažení na ntb, ověření md5 (tady samozřejmě sedí) a v terminálu scp na server - md5 nesedí(!)
- diff použitý na zip stažený wgetem (na serveru) a souborem poslaným na server přes scp hlásí, že se liší

Zkoušel jsi opravdu na Live distru všechno přesně tak jak to provozuješ na současné instalaci OS notebooku?
Pokud na stejném HW to při Live distru funguje OK a na současné instalaci OS nefunguje, proč zkoušet hledat problémy v síťovce, kabelech, switchíš nebo RAM?
Udělem si zálohu OS a pak ten Debian přeinstaluj a vyzkoušej to na čisté instalaci.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Karmelos 19. 06. 2025, 12:29:41

Neděláš ten MD5 moc brzy po stažení? Jen jestli se ti to ještě na ten disk všecko z těch všech keší po cestě fyzicky zapsalo.
A taky, co já vim, čistě náhodou, při tom downloadu, neměníš někdy vlastníka, práva, pravidla spouštění, apod?
A dělá ti to stejně pod userem i pod rootem? Co jinej, novej user?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 19. 06. 2025, 12:34:09

Citace: Karmelos 19. 06. 2025, 12:29:41

Neděláš ten MD5 moc brzy po stažení? Jen jestli se ti to ještě na ten disk všecko z těch všech keší po cestě fyzicky zapsalo.
A taky, co já vim, čistě náhodou, při tom downloadu, neměníš někdy vlastníka, práva, pravidla spouštění, apod?
A dělá ti to stejně pod userem i pod rootem? Co jinej, novej user?

To jsi napsal mega blbost. Nevyflushnuty cachovani pri zapisu na disk nehraje roli v tom, co jiny programy vidi za obsah souboru.

Rozdil by to byl pouze v pripade, kdyz by md5sum volal na neuzavrenej soubor (tj. wget/curl jeste bezi), a to predpokladam ze nedela.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Martin Poljak 19. 06. 2025, 12:58:17

Citace: Karmelos 19. 06. 2025, 12:29:41

Neděláš ten MD5 moc brzy po stažení? Jen jestli se ti to ještě na ten disk všecko z těch všech keší po cestě fyzicky zapsalo.

Čím by ho dělal? Něčím, co používá O_DIRECT? O tom tedy dost pochybuju.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 20. 06. 2025, 09:17:15

Oprávnění určitě neměním, pod rootem můžu zkusit.

Ještě mě ale napadla jedna věc: jedná se sice o nevýkonný Intel J1800, ale celé to napájím picoPSU modulem. Má už pár let za sebou a mohl bych zkusit pustit nějaký stress test, jestli to v té chvíli nebude chybovat víc.
Ten picoPSU by měl zvládat dodávat 200 W, ale kdoví jak jsou na tom kondenzátory. Navíc jsem nedávno přidal druhý HDD. Před tím jsem tam ale dlouho nic nekutil, tak nemůžu tvrdit, že tento problém nastal přesně po přidání disku.
Každopádně si seženu normální funkční zdroj a zkusím to s ním.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 20. 06. 2025, 12:49:33

Hod nam sem konecne diff z hexdumpu, jaky druh chyby tam nastava.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Jan Fikar 20. 06. 2025, 13:30:30

Tím zdrojem by to mohlo být, navíc jestli je tam nový disk.

Zkusil bych toto hodinu toto: stress-ng --matrix 0 --verify --tz --timeout 3600

A k tomu bych zaroven cetl vsechny disky, jestli to zdroj vydrzi: sudo dd if=/dev/sda of=/dev/null bs=1M status=progress

Ty disky jdou dat taky do stress-ng, ale to nemam vyzkouseny.

Druha moznost misto stress-ng a se zatezi jen na dve jadra je: dd if=/dev/zero bs=1M count=40000 status=progress| ssh -q -c aes128-ctr localhost 'cat > /dev/null'

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 21. 06. 2025, 19:16:36

Příští týden budu mít půjčený ATX zdroj. Pro teď jsem to vyzkoušel rozjet jen s jedním diskem a stažení instaláku bylo bez přerušení, md5 sedí a apt-get update byl taky bez chyb.
Myslím, že pro teď není potřeba zkoumat obsah poškozených souborů, resp. s největší pravděpodobností je příčina odhalena.
Děkuji všem, kteří se tématu věnovali.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 23. 06. 2025, 18:34:12

Tak anabáze bohužel nekončí. Mám půjčený zánovní 400W zdroj a dospěl jsem k tomuto:
- v konfiguraci jen s SSD šlo stahování vždycky bez přerušení, md5 vždycky sedí
- v konfiguraci s SSD a jedním HDD šlo stahování vždycky bez přerušení, md5 sedí
- jakmile připojím druhý HDD (zkoušel jsem i různé kombinace portů - nemají na to vliv), začne se stahování přerušovat, md5 nikdy nesedí

Tedy zdrojem to taky není, takže si zkusím sehnat nějakou desku se starším Intelem, abych to všechno nemusel instalovat znovu a vyzkoušel to na ní.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 23. 06. 2025, 18:46:13

A proc sem nedas ten diff z hexdumpu? Ono to napovi kde je chyba.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Jan Fikar 23. 06. 2025, 18:52:40

A co ten stress-ng nebo to dd přes ssh, jak jsem psal výše. To projde bez chyby i se dvouma diskama?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Martin Poljak 23. 06. 2025, 19:01:47

Citace: DrFreeze 23. 06. 2025, 18:34:12

Tak anabáze bohužel nekončí. Mám půjčený zánovní 400W zdroj a dospěl jsem k tomuto:
- v konfiguraci s SSD a jedním HDD šlo stahování vždycky bez přerušení, md5 sedí
- jakmile připojím druhý HDD (zkoušel jsem i různé kombinace portů - nemají na to vliv), začne se stahování přerušovat, md5 nikdy nesedí

Ehm, sice jsem nesledoval celou diskuzi, ale tady se mi celkem fest rozblikala červená kontrolka: to SSD je SATA nebo NVMe? Pokud není SATA, dost bych se obával o život SATA řadiče na desce. Už se mi taky stalo, že celkem nenápadně odešel i když zbytek desky běhal bez problémů. Pokud je SATA i to SSD, pak bych se obával o osud kontroleru jednoho z těch HDD.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Wasper 23. 06. 2025, 22:04:42

Citace: Martin Poljak 23. 06. 2025, 19:01:47

Pokud je SATA i to SSD, pak bych se obával o osud kontroleru jednoho z těch HDD.

Jo, vítejte v klubu. Něco na tohle téma (plus v další fázi i dost podivný pokles FPS na grafice za nepredikovatelných podmínek) mě loni donutilo k upgradu boardu(+CPU).

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 24. 06. 2025, 08:46:49

- na diff se chystám, ale ten nám přece řekne, kde je chyba v souboru, ne? A vzhledem k tomu, že každý ze stažených souborů (teď už jich mám asi 12) má jiný checksum, nevím, jestli nám to něco pomůže
- na stress se taky chystám, dělám to po chvilkách
- dnes chci tu kombinaci disků vyzkoušet na jiné základní desce

Co jsem ještě nepsal: deska má dva SATA porty, plus v miniPCIe přídavný řadič s dalšími dvěma. Zkoušel jsem různé kombinace připojení a nemá to na to na nic vliv, vždycky platí, že samotný SSD nebo SSD + 1xHDD jsou OK, jen plná konfigurace SSD + 2xHDD chybuje. Zkoušel jsem dokonce bootovat z toho SSD připojeného přes USB (stejný nOK výsledek). A pokud se to takto chová se dvěma různými zdroji, můžeme jejich vliv taky vyloučit.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Vít Šesták (v6ak) 24. 06. 2025, 09:29:11

S vyloučením vlivu je to komplikovanější. Jendou jsem takto řešil náhodné restarty. Zkoušel jsem jiný zdroj, jinou MoBo a další. Nic nepomáhalo, indicie směřovaly k SSD a GPU (společný jmenovatel je napájení a PCIe komunikace, proti zdroj MoBo, a zvažoval jsem i CPU), pořád se nedařilo odhalit příčinu. Nakonec byl problém jak v SSD, tak v GPU. Někdy se prostě sejde více vadných věcí.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 24. 06. 2025, 09:29:30

Citace: DrFreeze 24. 06. 2025, 08:46:49

- na diff se chystám, ale ten nám přece řekne, kde je chyba v souboru, ne? A vzhledem k tomu, že každý ze stažených souborů (teď už jich mám asi 12) má jiný checksum, nevím, jestli nám to něco pomůže

Pomůže. Třeba když bude chyba na tom samém místě, kde se přerušilo stahování. Nebo bude vždy na stejném místě. Nebo bude chyba spočívat v tom, že tam budou jen nulové bajty.

Pořád jste také ještě neudělal test, zda při opakovaném čtení (s vytlačením z cache) vychází stejný otisk nebo jiný. Takže nevíme, zda k chybě dochází při zápisu či při něm a data jsou už na disku chybně zapsané, nebo zda k chybě dochází až během čtení.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 24. 06. 2025, 19:16:12

Citace: DrFreeze 24. 06. 2025, 08:46:49

- na diff se chystám, ale ten nám přece řekne, kde je chyba v souboru, ne? A vzhledem k tomu, že každý ze stažených souborů (teď už jich mám asi 12) má jiný checksum, nevím, jestli nám to něco pomůže

Idealne tedy vice diffu, vuci OK souboru.

Tech chyb tam muze byt vicero - 1 bit flip v podobne nebo nahodne lokaci, kus opakovanych dat, blok zcela random dat, nejaka nulova oblast .. a to vse dava indice kde problem hledat.

Kdyz nevime detaily chyb, jen ze soubor je jiny.. tak je vysledek.. mas to rozbity a kup si novej komp.

Pokud pocitac jinak nepada, tak bych treba vadnou RAM vyloucil. Protoze pokud hitnete stahovani dat s chybou, tak by vam ty appky padali viditelne jako hnile hrusky na segfault.

Za me je k dalsimu hledani chyby (tj. vetveni - je to sitovka nebo je to disk) by pomohlo kdyby jste data na obou koncich spoje (jestli je mate tedy ve vlastni rezii) ukladal/stahoval/sdilel pouze z ramdisku (tj /dev/shm ). To pak rekne zda to je disk nebo sitovka. (za me sit/sitovka je pravdepodobnejsi, protoze chybnej disk by se taky projevil segfaultama aplikaci).

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Michal Šmucr 24. 06. 2025, 20:47:53

Citace: RDa 24. 06. 2025, 19:16:12

Za me je k dalsimu hledani chyby (tj. vetveni - je to sitovka nebo je to disk) by pomohlo kdyby jste data na obou koncich spoje (jestli je mate tedy ve vlastni rezii) ukladal/stahoval/sdilel pouze z ramdisku (tj /dev/shm ). To pak rekne zda to je disk nebo sitovka. (za me sit/sitovka je pravdepodobnejsi, protoze chybnej disk by se taky projevil segfaultama aplikaci).

Síťovka mi přijde jako fakt nepravděpodobná, jak už jsem tu jednou psal. SSH, které mu předtím při přenosech blblo taky, má MAC. Stačí jediný bitflip ve zprávě po cestě a rozpadne se ti spojení. Na TCP hlavičkách máš taky CRC.
Tzn. pokud bez viditelné chyby a zastavení přenosu projde přes SCP/SFTP soubor, tak už je porušená integrita souboru, co se načítá z disku (resp. zapisuje při obráceném směru přenosu).

@DrFreeze

Takže můj tip je disk nebo něco souvisejícího. Na stranu druhou mi přijde že, pokud by to četlo a zapisovalo s chybami všechno (tzn. i / resp. /var oddíl), nejspíš by začaly také náhodně padat programy a systém.
Další věc, co mě trochu zaráží, že by opravdu nikde nebyla ani jedna hláška nebo indicie (dmesg, žurnál, filesystém, vzrůstající SMART countery u disků s CRC chybami...).

Opravdu bych zkusil to fio (mělo by to být v balíčcích)
Dá se to ozkoušet na různé disky, případně i do /tmp, který bývá tmpfs (ramdisk, můžete ověřit v /proc/mounts).

Nejdřív s jednoduchým patternem, kde se dobře hledá. Jakmile to nepřečte správně, skončí to chybou. Když pak odeberete verify_fatal=1 v prvním kroku, zapíše vždy celou velikost, což se hodí třeba na následnou analýzu.


# zapis+verifikace
fio --name=write --filename=testfile --rw=write --size=1G --bs=4k \
    --direct=1 --ioengine=libaio --verify=pattern --verify_pattern=0xDEADBEEF --verify_fatal=1

# samostatna verifikace
fio --name=verify --filename=testfile --rw=read --bs=4k \
    --direct=1 --ioengine=libaio --verify=pattern --verify_pattern=0xDEADBEEF --verify_fatal=1

# kontrola zapsaneho souboru hexdumpem (skipuje vsechny opakujici se radky, takze je hned videt chyba)
hexdump -C testfile 
00000000  de ad be ef de ad be ef  de ad be ef de ad be ef  |................|
*
40000000

Případně ve stejném duchu zápis náhodných dat plus crc verifikace.


# zapis s vlozenym crc kodem a verifikace
fio --name=crcwrite --filename=testfile2 --rw=write --size=1G --bs=4k \
   --direct=1 --ioengine=libaio --verify=crc32c --verify_interval=4k --verify_fatal=1

# samostatna verifikace crc
fio --name=crcverify --filename=testfile2 --rw=read --bs=4k \
   --direct=1 --ioengine=libaio --verify=crc32c --verify_interval=4k --verify_fatal=1

Tohle se dá vesele opakovat s různými disky, oddíly po změnách konfigurace atp. Také s tím patternem můžete snadno zjistit, co se tam případně rozbíjí, jestli je to náhodné atp.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Martin Poljak 24. 06. 2025, 20:57:30

Citace: RDa 24. 06. 2025, 19:16:12

Citace: DrFreeze 24. 06. 2025, 08:46:49
- na diff se chystám, ale ten nám přece řekne, kde je chyba v souboru, ne? A vzhledem k tomu, že každý ze stažených souborů (teď už jich mám asi 12) má jiný checksum, nevím, jestli nám to něco pomůže
Pokud pocitac jinak nepada, tak bych treba vadnou RAM vyloucil. Protoze pokud hitnete stahovani dat s chybou, tak by vam ty appky padali viditelne jako hnile hrusky na segfault, [...] protoze chybnej disk by se taky projevil segfaultama aplikaci).

To není ani náhodou jisté. Zcela nedávno jsem řešil, že mi v notebooku odešel jeden modul RAM. Shodou okolností horních 16 GB. Projevovalo se to tak, že dokud nebyl spodní modul plný, aplikace nepadaly, alokovaly evidentně zespodu adresního prostoru. A neprojevovalo se to ani na diskové cache protože ta se také udržela ve spodní části paměťi. Jakmile ale došlo k zaplnění, aplikace se postupně jednak staly nestabilní a druhak začaly sem tam vznikat chyby ve filesystému kvůli diskové cache v té vadné horní polovině adresního prostoru, odkud občas přišly chybné bajty.

Celé jsem to odhalil až asi za měsíc a to jsem ten notebook intenzivně používal denně. Do té doby se to projevovalo tak, že sem tam občas prostě něco spadlo (typicky prohlížeč, ten je paměťově náročný) a občas byl poškozený filesystém. Od výměny selhávajícího modulu je vše OK. Takže na ty segfaulty bych se nutně fakt nespoléhal. Problém klidně může být třeba v konkrétním úzkém adresovém bloku paměťi využívaném pro DMA. Nebo třeba v IOMMU. Nebo kdekoliv mezitím.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Michal Šmucr 24. 06. 2025, 21:01:15

Tak zas s vadnou RAM by se ten výskyt chyby pravděpodobně neměnil podle toho kolik je tam zapojených disků, jak tazatel píše.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: pruzkumbojem 25. 06. 2025, 08:41:25

mam zcela identickou zkusenost. jen to bylo hornich 32 GB. dokud jsem nezkusil memtest, tak jsem neveril, ze je to pameti.
kde jsou stare dobre casy paritnich pameti

Citace: Martin Poljak 24. 06. 2025, 20:57:30

Citace: RDa 24. 06. 2025, 19:16:12
Citace: DrFreeze 24. 06. 2025, 08:46:49
- na diff se chystám, ale ten nám přece řekne, kde je chyba v souboru, ne? A vzhledem k tomu, že každý ze stažených souborů (teď už jich mám asi 12) má jiný checksum, nevím, jestli nám to něco pomůže
Pokud pocitac jinak nepada, tak bych treba vadnou RAM vyloucil. Protoze pokud hitnete stahovani dat s chybou, tak by vam ty appky padali viditelne jako hnile hrusky na segfault, [...] protoze chybnej disk by se taky projevil segfaultama aplikaci).

To není ani náhodou jisté. Zcela nedávno jsem řešil, že mi v notebooku odešel jeden modul RAM. Shodou okolností horních 16 GB. Projevovalo se to tak, že dokud nebyl spodní modul plný, aplikace nepadaly, alokovaly evidentně zespodu adresního prostoru. A neprojevovalo se to ani na diskové cache protože ta se také udržela ve spodní části paměťi. Jakmile ale došlo k zaplnění, aplikace se postupně jednak staly nestabilní a druhak začaly sem tam vznikat chyby ve filesystému kvůli diskové cache v té vadné horní polovině adresního prostoru, odkud občas přišly chybné bajty.

Celé jsem to odhalil až asi za měsíc a to jsem ten notebook intenzivně používal denně. Do té doby se to projevovalo tak, že sem tam občas prostě něco spadlo (typicky prohlížeč, ten je paměťově náročný) a občas byl poškozený filesystém. Od výměny selhávajícího modulu je vše OK. Takže na ty segfaulty bych se nutně fakt nespoléhal. Problém klidně může být třeba v konkrétním úzkém adresovém bloku paměťi využívaném pro DMA. Nebo třeba v IOMMU. Nebo kdekoliv mezitím.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: JmJ 25. 06. 2025, 08:43:47

Neprocital sem cele tema, takze reaguju uplne na prvni dotaz.

Pred cca 2 lety sem resil na vice jak 10 let starem hw s debianem, ze rsync na velkych souborech nespocital spravne crc.

Menil sem disk, pamet, cpu, sitovou kartu, cistou instalaci atd, jedine co zustavalo byl motherboard. Nechal sem puvodni instalaci debianu, disky a vymenil stary hw a problem zmizel. Takze bud se neco v debianu nekamaradilo s tim hw nebo ten hw po vice jak 10 letech nepracoval dobre.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 25. 06. 2025, 09:58:59

Slibuju, že dnes si zkusím vyhradit čas na pořádně provedený diff :-)

Včera jsem vzal všechny tři disky a zkusil nabootovat na desce s Intelem G550, ale jak jsem později zjistil, bez opravy/modifikace Grubu to nepůjde ("Select proper boot device", zkoušeno UEFI i legaci, IDE i AHCI). Už jsem si kolem toho něco našel, ale nejdřív potrápím ten diff.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 25. 06. 2025, 17:52:15

Takže:
- stažení souboru tentokrát hlásilo (jen) dvě chyby.
- když jsem chybně pustil hexdump tak, že to vypisoval do stdout, připojení přes ssh padlo
- převedl jsem OK a nOK soubory do ASCII (velikost přes 1,2 GB) a když jsem na serveru na ně pustil diff, taky spadl
- překopíroval jsem nOK soubor na notebook (musel jsem přes flash, protože přes scp měl pak jiný checksum než původně), zkontroloval checksum, aby byl na původním disku, na flash i na ntb shodný
- na ntb převedeno do ASCII a diff hlásí asi třicet rozdílů - předpokládám, že nemá cenu to porovnávat s offsetem, na kterém padlo stahování (mám zaznamenáno)
- na závěr jsem se pokusil vystresovat CPU hexdumpem a paralelně pustit wget: tentokrát hlásí 8 chyb

V pátek se dostanu zase na ten počítač, kde bych to mohl vyzkoušet, jen si musím najít, jak rekonfigurovat Grub.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LolPhirae 25. 06. 2025, 18:21:56

To musí bejt lábuž ten šrot používat a týdny pátrat, to se fakt vyplatí. Hoď ten krám do popelnice.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: jjrsk 26. 06. 2025, 08:02:43

To by do ty popelnice musel nahazet vsechno ... zrovna tu mam uplne novej NB s uplne novym USB dockem ... a sitovka se chova opravdu zajimave ... na tri adresy si pingnes, na 4tou ne ... kdyz to restartnes, tak si pingnes na tu ctvrtou, ale ne jednu z tech 3 ne. ...

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 26. 06. 2025, 13:46:49

Ono to samozřejmě všechno ukazuje na výměnu desky. Zvlášť když jsem včera upgradoval BIOS a od té chvíle se deska nezná k diskům připojeným na přídavný miniPCIe řadič :-)

Co se výkonu týká, tak stávající Celer J1800 sice není žádný rychlík, ale na občasnou zálohu z PC a mobilu do Nextcloudu nebo občasnou nahrávku z TV tuneru (tvheadend) stačí levou zadní. Takže kandidát na upgrade je např. tento:
https://www.tsbohemia.cz/gigabyte-n4120i-h_d528800

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomáš Crhonek 01. 08. 2025, 16:02:11

MD5 se dávno nepoužívá. Podívej se na články zde na rootu od Klímy, Vondrušky a Rosy. Je to už 25 let pasé. Dnes pouze SHA-3.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomas-T 01. 08. 2025, 16:32:54

Záleží na účelu.
Tam kde jde o bezpečnost (hashe hesel) máte pravdu.
Ale tam, kde jde jen o technickou kontrolu shody/neshody dvou souborů, se pořád běžně používá (jako alternativa CRC32).

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomáš Crhonek 01. 08. 2025, 17:10:39

Citace: Tomas-T 01. 08. 2025, 16:32:54

Záleží na účelu.
Tam kde jde o bezpečnost (hashe hesel) máte pravdu.
Ale tam, kde jde jen o technickou kontrolu shody/neshody dvou souborů, se pořád běžně používá (jako alternativa CRC32).

Nezáleží. Pro kontrolu obsahu souborů se používají výhradně kryptografické funkce, CRC je vhodné pouze pro kontrolu přenosu a nikoliv pro obsahy souborů. Standard je SHA-3 a další neprolomené kryptografické funkce a bych bych rád, kdybychom konečně přestali navrhovat MD5, kterou prolomil i Čech Klíma. Videa před 25 lety byla zajímavá a tím to končí.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Jan Fikar 01. 08. 2025, 20:04:18

Na účelu záleží. To prolomení neznamená, že md5 nefunguje. To znamená, že jde nalézt kolize, teda pro daný kontrolní součet umím udělat i jiná vstupní data.

Takže kryptografický neprolomený hash (SHA256, SHA512, B3) použiji, když se obávám, že data schválně někdo změnil.

Normální nekryptografický hash (CRC32, XXHASH, MD5) použiji, když chci najít změnu bitu vinou vadného HW. Pokud někdo data schválně nemění, tak pravděpodobnost náhodné kolize je prakticky nulová.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák 01. 08. 2025, 20:21:33

Jednak MD5 není „normální nekryptografický hash“, ale prolomený kryptografický hash. Jednak u u souborů vystavených na internetu se hash nezveřejňuje proto, aby se odhalila chyba v hardwaru, ale především jako ochrana před změnou souboru. Třeba když je soubor vystaven na různých zrcadlech, ale hash bych si měl stáhnout přímo od zdroje, nebo alespoň z jiného zrcadla.

Ale hlavně – i když mi stačí hash, na který nejsou kryptografické nároky, nebudu používat MD5. Použiju třeba BLAKE3, která je podstatně rychlejší, než MD5.

Že někdo pořád vystavuje u souborů určených pro stažení hashe v MD5 je stejná ostuda, jako když distribuce ještě spoustu let po té, co byl linuxový ifconfig označen jako zastaralý, používaly pro konfiguraci sítě ifconfig místo ip.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomáš Crhonek 01. 08. 2025, 20:33:13

Citace: Filip Jirsák 01. 08. 2025, 20:21:33

Jednak MD5 není „normální nekryptografický hash“, ale prolomený kryptografický hash. Jednak u u souborů vystavených na internetu se hash nezveřejňuje proto, aby se odhalila chyba v hardwaru, ale především jako ochrana před změnou souboru. Třeba když je soubor vystaven na různých zrcadlech, ale hash bych si měl stáhnout přímo od zdroje, nebo alespoň z jiného zrcadla.

Ale hlavně – i když mi stačí hash, na který nejsou kryptografické nároky, nebudu používat MD5. Použiju třeba BLAKE3, která je podstatně rychlejší, než MD5.

Že někdo pořád vystavuje u souborů určených pro stažení hashe v MD5 je stejná ostuda, jako když distribuce ještě spoustu let po té, co byl linuxový ifconfig označen jako zastaralý, používaly pro konfiguraci sítě ifconfig místo ip.

Ano, přesně tak, na odborné webu by měli být aktuální informace, takže ani pan Fikar nemá pravdu.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Martin Poljak 01. 08. 2025, 20:35:08

Citace: Filip Jirsák 01. 08. 2025, 20:21:33

Že někdo pořád vystavuje u souborů určených pro stažení hashe v MD5 je stejná ostuda, jako když distribuce ještě spoustu let po té, co byl linuxový ifconfig označen jako zastaralý, používaly pro konfiguraci sítě ifconfig místo ip.

A nenapadlo vás, že je to proto, že to prostě stačí? Fakt myslíte, že ve zcela drtivé většině případů někoho trápí, jestli se mu těch pár desítek mega nebo i pár giga ověřuje pět vteřin nebo desetinu vteřiny? Nebo že s pravděpodobností jedna ku opravdu hodně nul může jít o kolizi?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Jan Fikar 01. 08. 2025, 20:48:55

A v čem přesně nemám pravdu?

Pokud se původnímu tazateli samovolně mění hash souborů, tak jde o chybu HW a ne zásah hackerů, nebo ano? V tomto případě úplně v pohodě stačí kontrola MD5 či XXHASH, nebo CRC32. Jestli jde o rychlost, tak poslední dva jsou rychlejší než BLAKE3.

Nikde nepíše, že má ten originální md5 součet někde z internetu. Já teda předpokládal, že si stáhl soubor na notebook, udělal md5. Stáhl soubor na server, udělal md5 - no a tyto dva součty se lišily.

Jestli chcete odevšad vyházet nekryptografické hashe, no tak asi by bylo dobré začít třeba od BTRFS, který používá "prolomený" CRC32.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák 01. 08. 2025, 21:06:54

Citace: Martin Poljak 01. 08. 2025, 20:35:08

A nenapadlo vás, že je to proto, že to prostě stačí? Fakt myslíte, že ve zcela drtivé většině případů někoho trápí, jestli se mu těch pár desítek mega nebo i pár giga ověřuje pět vteřin nebo desetinu vteřiny? Nebo že s pravděpodobností jedna ku opravdu hodně nul může jít o kolizi?

A nenapaldo vás, že není důvod dělat to blbě, když to jde dělat i lépe – bez jakýchkoli nákladů? Kdyby vám v obchodě nabídli úplně to samé zboží, jendou za 100 Kč a podruhé za 150 Kč, v regálu vedle sebe, identické balení, prostě všechno stejné – budete si kupovat to dražší, protože to prostě stačí?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Martin Poljak 01. 08. 2025, 22:21:03

Citace: Filip Jirsák 01. 08. 2025, 21:06:54

Citace: Martin Poljak 01. 08. 2025, 20:35:08
A nenapadlo vás, že je to proto, že to prostě stačí? Fakt myslíte, že ve zcela drtivé většině případů někoho trápí, jestli se mu těch pár desítek mega nebo i pár giga ověřuje pět vteřin nebo desetinu vteřiny? Nebo že s pravděpodobností jedna ku opravdu hodně nul může jít o kolizi?
A nenapaldo vás, že není důvod dělat to blbě, když to jde dělat i lépe – bez jakýchkoli nákladů?

Když to stačí, tak to hlavně logicky není důvod vůbec řešit. Většinu lidí zajímají důležitější věci než tohle. A pak jsou samozřejmě lidé, co řeší podobné věci a uniká jim pointa, ehm, že... Zlý jazyk by je mohl nazvat takovými intelektuálními nebo technickými snoby. Nebo třeba lidmi odtrženými od reality.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák 02. 08. 2025, 08:24:11

Citace: Martin Poljak 01. 08. 2025, 22:21:03

Když to stačí, tak to hlavně logicky není důvod vůbec řešit. Většinu lidí zajímají důležitější věci než tohle. A pak jsou samozřejmě lidé, co řeší podobné věci a uniká jim pointa, ehm, že... Zlý jazyk by je mohl nazvat takovými intelektuálními nebo technickými snoby. Nebo třeba lidmi odtrženými od reality.

Řešit to pokaždé musíte vy. Pokaždé musíte zkoumat, jestli v daném případě MD5 stačí nebo nestačí. Já nic řešit nemusím, protože já MD5 nepoužívám nikdy.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LolPhirae 02. 08. 2025, 20:37:46

Citace: Filip Jirsák 02. 08. 2025, 08:24:11

Já nic řešit nemusím

Já bych na tvém místě tu F-kovou dg. možná přece jen řešil. ;D

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomáš Crhonek 03. 08. 2025, 05:43:54

Citace: Jan Fikar 01. 08. 2025, 20:48:55

A v čem přesně nemám pravdu?

Pokud se původnímu tazateli samovolně mění hash souborů, tak jde o chybu HW a ne zásah hackerů, nebo ano? V tomto případě úplně v pohodě stačí kontrola MD5 či XXHASH, nebo CRC32. Jestli jde o rychlost, tak poslední dva jsou rychlejší než BLAKE3.

Nikde nepíše, že má ten originální md5 součet někde z internetu. Já teda předpokládal, že si stáhl soubor na notebook, udělal md5. Stáhl soubor na server, udělal md5 - no a tyto dva součty se lišily.

Jestli chcete odevšad vyházet nekryptografické hashe, no tak asi by bylo dobré začít třeba od BTRFS, který používá "prolomený" CRC32.

Protože na odborném webu je zcela nevhodné to zmiňovat i jako alternativu. Pokud to stáhl z internetu, tak je to dost stará binárka, pravděpodobně nepodepsaná a pokud se na to ptá na root.cz, tak tomu nerozumí, takže 20 let starý program by mohl být nebezpečný. Vše novější je podepsané.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: DrFreeze 04. 08. 2025, 12:11:15

Jednalo se o instalační zip Nextcloudu. Ten nejnovější. Nabízejí k němu MD5, tak jsem jej použil i já - čistě pro kontrolu, jestli to nějaká část HW podělala nebo ne. Zkoušeno mnohokrát, čímž se pravděpodobnost kolize dále snižuje.
Teď funguju na nové desce bez problémů, čímž bychom mohli vlákno jako vyčerpané uzavřít.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 04. 08. 2025, 12:57:36

Citace: DrFreeze 04. 08. 2025, 12:11:15

Jednalo se o instalační zip Nextcloudu. Ten nejnovější. Nabízejí k němu MD5, tak jsem jej použil i já

Největší problém je v tom, že autoři Nextcloudu nemají dost soudnosti na to, aby MD5 přestali nabízet. No a že tam mají MD5 a nemají třeba BLAKE3…

Aspoň že nikde na úvodní stránce Nextcloud mezi vlastnostmi neuvádějí „secure“. Až na stránce Nextcloud files uvádějí „ultimate security“, tak je dobré vědět, že si pod „ultimate security“ představují třeba MD5.

Citace: DrFreeze 04. 08. 2025, 12:11:15

Zkoušeno mnohokrát, čímž se pravděpodobnost kolize dále snižuje.

Nesnižuje. U MD5 není problém v tom, že by kolize mohla vzniknout náhodou. Problém je v tom, že se velmi snadno dá vyrobit záměrně. Pokud by někdo nahrálna server falešný soubor, ke kterému by však seděl MD5 součet, nezáleží na tom, kolikrát to budete zkoušet – pořád tam bude ten stejný (podvržený) soubor, takže výpočet jeho MD5 vyjde pokaždé stejně.

Nejde o to, že by zrovna v tom vašem způsobu použití, kdy jste hledal chybu hardwaru, mohlo MD5 způsobit nějaké problémy. Jde o to, že především autoři Nextcloudu ten MD5 hash vůbec nemají vystavovat, a za druhé i vy byste měl automaticky sáhnout po něčem jiném, než MD5. Stejně jako pro konfiguraci sítě na Linuxu automaticky saháme (doufám, že už všichni) po ip a ne po ifconfig.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LamZelezo 04. 08. 2025, 13:46:19

Citace: Filip Jirsák 04. 08. 2025, 12:57:36

Citace: DrFreeze 04. 08. 2025, 12:11:15
Zkoušeno mnohokrát, čímž se pravděpodobnost kolize dále snižuje.
Nesnižuje. U MD5 není problém v tom, že by kolize mohla vzniknout náhodou. Problém je v tom, že se velmi snadno dá vyrobit záměrně. Pokud by někdo nahrálna server falešný soubor, ke kterému by však seděl MD5 součet, nezáleží na tom, kolikrát to budete zkoušet – pořád tam bude ten stejný (podvržený) soubor, takže výpočet jeho MD5 vyjde pokaždé stejně.

Nejde o to, že by zrovna v tom vašem způsobu použití, kdy jste hledal chybu hardwaru, mohlo MD5 způsobit nějaké problémy. Jde o to, že především autoři Nextcloudu ten MD5 hash vůbec nemají vystavovat, a za druhé i vy byste měl automaticky sáhnout po něčem jiném, než MD5. Stejně jako pro konfiguraci sítě na Linuxu automaticky saháme (doufám, že už všichni) po ip a ne po ifconfig.

To vis, ze snizuje. On md5 pouziva na detekci chyb a ne na detekci podvrhu. A vy dva s Crhonkem si zalozte vlastni vlakno a nepodsouvejte mu vlastni nemohoucnost pochopit use case.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Michal Šmucr 04. 08. 2025, 14:04:08

(https://i.ibb.co/5XZG36qF/1534957079326.gif) (https://imgbb.com/)
Škoda jen toho použitého hashe :)

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Franta Kučera 04. 08. 2025, 14:11:17

Citace: LamZelezo 04. 08. 2025, 13:46:19

On md5 pouziva na detekci chyb a ne na detekci podvrhu. A vy dva s Crhonkem si zalozte vlastni vlakno a nepodsouvejte mu vlastni nemohoucnost pochopit use case.

Použít MD5 jako kontrolní součet na odhalení toho, jestli ti neshnila data na disku nebo v RAMce, to je asi v pohodě. Ale jaký je důvod nepoužít algoritmus, který poslouží i jako ochrana před MITM útoky (tzn. záměrná změna dat, kdy mi někdo na síti chce podstrčit škodlivý kód)?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 04. 08. 2025, 14:29:45

Citace: LamZelezo 04. 08. 2025, 13:46:19

Citace: Filip Jirsák 04. 08. 2025, 12:57:36
Citace: DrFreeze 04. 08. 2025, 12:11:15
Zkoušeno mnohokrát, čímž se pravděpodobnost kolize dále snižuje.
Nesnižuje. U MD5 není problém v tom, že by kolize mohla vzniknout náhodou. Problém je v tom, že se velmi snadno dá vyrobit záměrně. Pokud by někdo nahrálna server falešný soubor, ke kterému by však seděl MD5 součet, nezáleží na tom, kolikrát to budete zkoušet – pořád tam bude ten stejný (podvržený) soubor, takže výpočet jeho MD5 vyjde pokaždé stejně.

Nejde o to, že by zrovna v tom vašem způsobu použití, kdy jste hledal chybu hardwaru, mohlo MD5 způsobit nějaké problémy. Jde o to, že především autoři Nextcloudu ten MD5 hash vůbec nemají vystavovat, a za druhé i vy byste měl automaticky sáhnout po něčem jiném, než MD5. Stejně jako pro konfiguraci sítě na Linuxu automaticky saháme (doufám, že už všichni) po ip a ne po ifconfig.

To vis, ze snizuje. On md5 pouziva na detekci chyb a ne na detekci podvrhu. A vy dva s Crhonkem si zalozte vlastni vlakno a nepodsouvejte mu vlastni nemohoucnost pochopit use case.

Máte to vysvětlené v tom textu, který jste citoval. První dvě věty máte vysvětlené v prvním odstavci, třetí větu ve druhém.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 04. 08. 2025, 14:57:35

Citace: Filip Jirsák 04. 08. 2025, 12:57:36

Citace: DrFreeze 04. 08. 2025, 12:11:15
Zkoušeno mnohokrát, čímž se pravděpodobnost kolize dále snižuje.
Nesnižuje. U MD5 není problém v tom, že by kolize mohla vzniknout náhodou. Problém je v tom, že se velmi snadno dá vyrobit záměrně. Pokud by někdo nahrálna server falešný soubor, ke kterému by však seděl MD5 součet, nezáleží na tom, kolikrát to budete zkoušet – pořád tam bude ten stejný (podvržený) soubor, takže výpočet jeho MD5 vyjde pokaždé stejně.

Pokud si prectes vlakno, tak zjistis ze OP nezapasi s tim, ze mu stazeny soubor zobrazuje cunarny a tezi bitkojny, byt mu MD5 sedi.. ale tim, ze mu MD5 praveze nesedi !

Nechapu tu potrebu resit porad nejake off topic veci. Drz se tematu nebo si zaloz vlastni.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 04. 08. 2025, 15:52:29

Citace: RDa 04. 08. 2025, 14:57:35

Pokud si prectes vlakno, tak zjistis ze OP nezapasi s tim, ze mu stazeny soubor zobrazuje cunarny a tezi bitkojny, byt mu MD5 sedi.. ale tim, ze mu MD5 praveze nesedi !

Nechapu tu potrebu resit porad nejake off topic veci. Drz se tematu nebo si zaloz vlastni.

Pokud si přečtete vlákno, zjistíte, že původní problém byl dávno vyřešen.

Vzhledem k tomu, že tazatel použil MD5, padlo tu od různých lidí upozornění na to, že v roce 2025 fakt není žádný důvod používat MD5, včetně vysvětlení, proč to tak je. Takové upozornění je na tomto webu zcela na místě – očekává se nějaká odborná úroveň odpovídajících a k tomu patří i to, že upozorní na zjevnou chybu, i když nesouvisí přímo s tématem.

Normálně by tady stačily asi tři komentáře tří různých osob upozorňujících na to, že MD5 do roku 2025 fakt nepatří, a to ani když to někdo neznalý vystaví na internetu. Autor by si to třikrát přečetl, zapamatoval by si to a bylo by to vyřešené.

Ale to ne, diskusi musí pořád zaplevelovat nesmysly někdo, kdo mermomocí musí obhajovat neobhajitelné a polemizovat s něčím, co nikdo nepsal. Všichni, kdo tu kritizovali použití MD5, vědí, že zrovna v tomto případě to nezpůsobilo problém. Také nikdo nekritizoval toto konkrétní použití, ale to, že v roce 2025 vůbec někoho napadne použít MD5, na cokoli.

Protože v roce 2025 je jediné správné nepoužívat MD5 nikdy na nic. Prostě neexistuje racionální důvod pro použití MD5 – buď je to nebezpečné, a tam, kde to není nebezpečné, je to zbytečně pomalé.

Pokud si chcete teoretizovat o tom, za jakých okolností je použití MD5 bezpečné a proč vám vůbec nevadí, že je to zbytečně pomalé, klidně si o tom teoretizujte, ale někde jinde. Protože takové komentáře s tímto vláknem vůbec nijak nesouvisí a jenom zaplevelují tuto diskusi. Ty 2,5 komentáře zmiňující MD5 jako nevhodné fakt problém nejsou (přičemž třetí byl jen reakcí na vzniklou diskusi, druhý byl samostatný komentář na jeden řádek a v prvním komentáři to byla jednovětá poznámka po dvou odstavcích týkajících se přímo problému, který tazatel řešil).

Takže úplně offtopic jste tu vy.

Kdyby na webu o tuningu moderních Octavií někdo mimochodem zmínil, že změnu směru ukazuje rukou z okénka, také ho ostatní oprávněně upozorní, že k tomu máme v moderních autech blinkry. Zajímalo by mne, kolik lidí by tam rozjelo offtopic debatu o tom, že zákon nezakazuje dávat znamení o směru jízdy rukama v případě, kdy je vozidlo vybaveno funkčními blinkry; a obhajovali by, že když je dotyčný zvyklý dávat znamení o změně směru jízdy rukama, tak přece není důvod, aby používal blinkry.

A už se těším, jak sem zase napochoduje někdo, kdo nezná pravidla silničního provozu, a začne mi vysvětlovat, že to je něco jiného, protože řidič v moderní Octavii s volantem vlevo nemůže dát rukou znamení o změně směru jízdy vpravo, aby bylo vidět. No tak vězte, že může. Akorát to nikdo nepochopí.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LamZelezo 04. 08. 2025, 16:24:34

Bedrich Kraus von Zillergut jak vysity.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomas-T 04. 08. 2025, 16:35:32

Pokud chci porovnávat jen okometricky, tak je dobré vzít v úvahu i délku výsledného hashe.
Přece jen je rozdíl koukat na řetězce typu (a hledat rozdíl):
CRC32 - B7781039
MD5 - 3d166650cb8991f23a1b9f77b1f4901c
BLAKE3 - 28b5122d0aea9630ba3421baf150fa08ff05d34bf7209575db3056da8fa7f62f

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: RDa 04. 08. 2025, 16:41:51

Citace: Tomas-T 04. 08. 2025, 16:35:32

Pokud chci porovnávat jen okometricky, tak je dobré vzít v úvahu i délku výsledného hashe.
Přece jen je rozdíl koukat na řetězce typu (a hledat rozdíl):
CRC32 - B7781039
MD5 - 3d166650cb8991f23a1b9f77b1f4901c
BLAKE3 - 28b5122d0aea9630ba3421baf150fa08ff05d34bf7209575db3056da8fa7f62f

Podstatnym kvalitativnim ukazatelem dobreho hashe je, ze i pri zmene byt jednoho bitu, bude cely hash vypada uplne jinak :) Takze nezalezi na delce.. zmena bude patrna uz z prvnich (ci poslednich) cislic. (ostatne to je princip i zkracovani u git commit hashe)

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomas-T 04. 08. 2025, 16:55:14

Ano, to že jsou rozdílné, obvykle poznám stejně rychle u všech.
Ale zda jsou opravdu shodné, to už ne - jedině, že bych kouknul na prvních 5 znaků a když jsou shodné, zbytek nečtu a neporovnávám - ale pak mi stačí i ten CRC32, když zbytek ignoruju.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 04. 08. 2025, 17:00:10

Citace: Tomas-T 04. 08. 2025, 16:55:14

Ano, to že jsou rozdílné, obvykle poznám stejně rychle u všech.
Ale zda jsou opravdu shodné, to už ne - jedině, že bych kouknul na prvních 5 znaků a když jsou shodné, zbytek nečtu a neporovnávám - ale pak mi stačí i ten CRC32, když zbytek ignoruju.

Pokud si potřebujete být opravdu jist, nebudete to porovnávat očima. Pokud vám ale stačí porovnání očima a zvládnete porovnat 32 hexadecimálních znaků MD5, pak zvládnete porovnat i prvních 32 hexadecimálních znaků BLAKE3 – a pořád budete mít u BLAKE3 nesrovnatelně větší jistotu, než u MD5.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tom5 05. 08. 2025, 14:09:34

Citace: Filip Jirsák 04. 08. 2025, 17:00:10

Pokud si potřebujete být opravdu jist, nebudete to porovnávat očima. Pokud vám ale stačí porovnání očima a zvládnete porovnat 32 hexadecimálních znaků MD5, pak zvládnete porovnat i prvních 32 hexadecimálních znaků BLAKE3 – a pořád budete mít u BLAKE3 nesrovnatelně větší jistotu, než u MD5.

To není pravda. Avalanche efekt je u obou velmi podobný (rozdíl je pouze nějakých 1-2pb).

BTW Podle @corkami není prakticky možné vytvořit soubor s konkrétním MD5 hashem. Tj. pokud máte bezpečnou cestou předaný MD5 k původnímu souboru, který nebyl(!) vyrobený za účelem MD5 kolize, tak se lze na MD5 spolehnout (s ohledem na konkrétní použití)

To ale pochopitelně neznamená, že nemá smysl „jít s dobou”. Jen se domnívám, že ta hysterie kolem MD5 kolizí je často přehnaná.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tomáš Crhonek 05. 08. 2025, 14:11:50

Citace: Tom5 05. 08. 2025, 14:09:34

Podle @corkami není prakticky možné vytvořit soubor s konkrétním MD5 hashem.

Tohle není pravda. Už zde na rootu o tom psal přibližně před 20 lety pan Klíma, český kryptolog a dnes to jde do dvou minut na běžném CPU nebo GPU. Takže MD5 se vůbec nehodí na kontrolu obsahu souborů

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 05. 08. 2025, 15:15:35

Citace: Tom5 05. 08. 2025, 14:09:34

To není pravda. Avalanche efekt je u obou velmi podobný (rozdíl je pouze nějakých 1-2pb).

Co na tom není pravda? Pravděpodobnost, že budou mít dva soubory náhodou stejné MD5 je stejná, jako že budou mít stejnou první půlku BLAKE3 hashe (protože BLAKE3 je náhodou dvojnásobná oproti MD5). Podstatné je, že obojí je extrémně malá pravděpodobnost. Avalanche efekt se uplatňuje proto, že to nejsou dokonalé hashovací funkce – ale to je vzhledem k té pravděpodobnosti shody zanedbatelné.

Citace: Tom5 05. 08. 2025, 14:09:34

BTW Podle @corkami není prakticky možné vytvořit soubor s konkrétním MD5 hashem. Tj. pokud máte bezpečnou cestou předaný MD5 k původnímu souboru, který nebyl(!) vyrobený za účelem MD5 kolize, tak se lze na MD5 spolehnout (s ohledem na konkrétní použití)

Nikoli, MD5 už je dávno prolomené vůči kolizím prvního i druhého řádu. Kolize druhého řádu byla na MD5 v praxi předvedena už v roce 2008. Ano, potřebovali k tomu tenkrát výkonný cluster, ale byl to rok 2008. V roce 2012 byl dle Microsoftu podepsán malware Flame certifikátem s kolizním hashem. Takže minimálně od roku 2012 musíte považovat kolize druhého řádu u MD5 za běžně dostupné.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: mikesznovu 05. 08. 2025, 15:27:43

Citace

To vis, ze snizuje. On md5 pouziva na detekci chyb a ne na detekci podvrhu. A vy dva s Crhonkem si zalozte vlastni vlakno a nepodsouvejte mu vlastni nemohoucnost pochopit use case.

Citace: Michal Šmucr 04. 08. 2025, 14:04:08

(https://i.ibb.co/5XZG36qF/1534957079326.gif) (https://imgbb.com/)
Škoda jen toho použitého hashe :)

Ten nahoře je slam-němý panák a a dole je MD5 a mlátí ji kolizí druhého řádu ale díky avalanche štítu se vyhýbá té slámě.

Ale z jednoho dne nelze dělat závěry o vyhasnutí diskuze

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LolPhirae 05. 08. 2025, 15:55:50

Citace: mikesznovu 05. 08. 2025, 15:27:43

Ten nahoře je slam-němý panák a a dole je MD5 a mlátí ji kolizí druhého řádu ale díky avalanche štítu se vyhýbá té slámě.

Mám u tebe balení utěrek na monitor... ;D ;D ;D ;D ;D ;D ;D

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Tom5 05. 08. 2025, 19:01:14

Citace: Filip Jirsák 05. 08. 2025, 15:15:35

Citace: Tom5 05. 08. 2025, 14:09:34
To není pravda. Avalanche efekt je u obou velmi podobný (rozdíl je pouze nějakých 1-2pb).
Co na tom není pravda? Pravděpodobnost, že budou mít dva soubory náhodou stejné MD5 je stejná, jako že budou mít stejnou první půlku BLAKE3 hashe (protože BLAKE3 je náhodou dvojnásobná oproti MD5).

Reagoval jsem na vaše tvrzení, že „pořád budete mít u BLAKE3 nesrovnatelně větší jistotu, než u MD5.”

Citace: Filip Jirsák 05. 08. 2025, 15:15:35

Citace: Tom5 05. 08. 2025, 14:09:34
BTW Podle @corkami není prakticky možné vytvořit soubor s konkrétním MD5 hashem. Tj. pokud máte bezpečnou cestou předaný MD5 k původnímu souboru, který nebyl(!) vyrobený za účelem MD5 kolize, tak se lze na MD5 spolehnout (s ohledem na konkrétní použití)
Nikoli, MD5 už je dávno prolomené vůči kolizím prvního i druhého řádu. Kolize druhého řádu byla na MD5 v praxi předvedena už v roce 2008. Ano, potřebovali k tomu tenkrát výkonný cluster, ale byl to rok 2008. V roce 2012 byl dle Microsoftu podepsán malware Flame certifikátem s kolizním hashem. Takže minimálně od roku 2012 musíte považovat kolize druhého řádu u MD5 za běžně dostupné.

Máte pro své tvrzení nějaký důvěryhodný zdroj? Ne, že bych to problematiku podrobně sledoval, ale stále mi výsledky hledání hlásí i pro rok 2025 prakticky nedosažitelný second-preimage MD5 attack (dokonce se mi tu někde mihlo, že to nejde ani pro MD4). Pochopitelně se bavíme o běžných velikostech zpráv/souborů. Nikoli „laboratorní” jednotky bajtů.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 05. 08. 2025, 19:45:01

Citace: Tom5 05. 08. 2025, 19:01:14

Reagoval jsem na vaše tvrzení, že „pořád budete mít u BLAKE3 nesrovnatelně větší jistotu, než u MD5.”

Za předpokladu, že útočník může ovlivnit obsah zdrojového souboru, aby mohl provést útok nalezením kolize, nemáte u MD5 jistotu, že se soubory neliší.

Snažím se říct, že kdyby byla MD5 neprolomená, je MD5 a půlka hashe BLAKE3 srovnatelně dobrá. Ale prolomení MD5 ho totálně degraduje. I když je možný jen útok na kolize prvního řádu, ověřit, že útočník nemůže zmanipulovat zdrojový soubor je extrémně obtížné. Třeba u distribuce softwaru, který používá spousty různých knihoven. Zejména když se postupně spěje k opakovatelným buildům, což útočníkovi v tomto směru paradoxně nahrává.

Citace: Tom5 05. 08. 2025, 19:01:14

Máte pro své tvrzení nějaký důvěryhodný zdroj? Ne, že bych to problematiku podrobně sledoval, ale stále mi výsledky hledání hlásí i pro rok 2025 prakticky nedosažitelný second-preimage MD5 attack (dokonce se mi tu někde mihlo, že to nejde ani pro MD4). Pochopitelně se bavíme o běžných velikostech zpráv/souborů. Nikoli „laboratorní” jednotky bajtů.

Máte pravdu. Nepozorně jsem si to přečetl – ty certifikáty nebyly vytvořené jako dvojčata k již existujícím certifikátům, ale útočníci/útočníci si nechali vystavit certifikát, následně v něm změnili některé atributy ale výsledek měl stejný hash, takže na modifikovaném certifikátu byl stále validní podpis CA. Pre-image útok proti MD5 byl navržen v roce 2009, ale zůstává stále jen teoretický kvůli velké výpočetní složitosti. Omlouvám se za mystifikaci.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Honza1Ubuntu 05. 08. 2025, 22:19:22

Citace: Tomas-T 04. 08. 2025, 16:35:32

Pokud chci porovnávat jen okometricky, tak je dobré vzít v úvahu i délku výsledného hashe.
Přece jen je rozdíl koukat na řetězce typu (a hledat rozdíl):
CRC32 - B7781039
MD5 - 3d166650cb8991f23a1b9f77b1f4901c
BLAKE3 - 28b5122d0aea9630ba3421baf150fa08ff05d34bf7209575db3056da8fa7f62f

U obou souborů si dáš výsledné hashe do TXT souboru (obě), pak označíš v TXT souboru jeden řetězec a měl by se "rossvítit" i ruhý řetězec, je-li stejný. A pak je jedno, jestli jde o porovnávání 10 nebo 10000 znaků. Porovnávám takto velikosti, hashe, data v určité řádce-úseku, adresy, souřadnice, čísla účtů, emaily a další.

Pokud jednu řádku či slovo ve velkém seznamu v TXT souboru označím, automaticky se v tom texťáku "rosvítí" všechny stejné řetězce. Porovnávat okem byť jen telefonní číslo je otrava.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Vít Šesták (v6ak) 06. 08. 2025, 08:21:35

Citace: RDa 04. 08. 2025, 16:41:51

Podstatnym kvalitativnim ukazatelem dobreho hashe je, ze i pri zmene byt jednoho bitu, bude cely hash vypada uplne jinak :) Takze nezalezi na delce.. zmena bude patrna uz z prvnich (ci poslednich) cislic. (ostatne to je princip i zkracovani u git commit hashe)

Bavíme se o náhodné kolizi prvních/posledních pár bytů, nebo o cílené kolizi? Cílenou kolizi pár bytů uděláte hrubou silou. U sedmimístného git commit id máte 4*7 = 28 bitů, to je s brute force hračka, to spočítáte dnes snad i na hodinkách. Pokud můžete měnit něco na konci souboru, dokonce ani nemusíte pokaždé počítat hash od začátku, ale můžete podstatnou část výpočtu sdílet.

BTW, kdysi dávno (tak před 20 lety) jsem narazil na ffp (fuzzy fingerprints), což je nástroj, který generuje klíče, jejichž hashe vypadají vizuálně podobně: https://www.usenix.org/system/files/login/articles/105484-Gutmann.pdf

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Vít Šesták (v6ak) 06. 08. 2025, 08:44:00

A k pre-image útokům na MD5 jsem našel pár let starou informaci, že jsou zatím prakticky neproveditelné, nejlepší známá možnost je vlastně méně než 25* méně složitá než hrubá síla: https://security.stackexchange.com/a/261417

Reálné útoky se tedy spíš soustředí na to, aby nebylo potřeba najít jiný pre-image, ale jen obyčejnou kolizi. Nevím, jestli je k tomu prakticky použitelná samotná knihovna třetí strany, spíše nějaká binární data jako třeba obrázek. Nebo něco, kam lze skrýt vhodná metadata, aniž by to bylo někomu divné.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 06. 08. 2025, 09:31:28

Citace: Vít Šesták (v6ak) 06. 08. 2025, 08:44:00

Reálné útoky se tedy spíš soustředí na to, aby nebylo potřeba najít jiný pre-image, ale jen obyčejnou kolizi. Nevím, jestli je k tomu prakticky použitelná samotná knihovna třetí strany, spíše nějaká binární data jako třeba obrázek. Nebo něco, kam lze skrýt vhodná metadata, aniž by to bylo někomu divné.

Je úplně jedno, zda to bude obrázek nebo binárka knihovny. Akorát že obrázků z externích zdrojů Nextcloud asi moc nemá, externí knihovny určitě používá.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Vít Šesták (v6ak) 06. 08. 2025, 09:50:44

Pokud si tu knihovnu stáhne v binární podobě bez další kontroly, a autor té knihovny (nebo někdo po cestě, třeba CI) se snaží udělat útok, je to problém i s řádnou kontrolou hashů.

Pokud si tu knihovnu kompiluje NextCloud nebo pokud má reproducible build, je zase těžší tam něco smysluplného podstrčit, aniž by to ve zdrojových kódech vypadalo divně. Upravit zdrojový kód tak, aby z kompilátoru vypadla zvolená sekvence dat (pro útočníka v podstatě náhodný blob) na vhodné pozici, není úplně sranda. Nejlépe by to šlo asi nějakým stringem, ale pak nemusí být úplně sranda jeho přítomnost nějak rozumně obhájit. Proto mi obrázky a další data přijdou pro útočníka příhodnější.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Zdenek Tomes 06. 08. 2025, 18:29:55

Původní otázka: "stáhnu přes wget soubor a nesedí md5"

Kam jsme došli: "md5 je outdated, je snadné (???) vytvořit jiný soubor se stejným md5, musí se použít XXX nebo YYY, což je free-cool-in a moderní"

Tak evidentně problém s kolizí MD5 původní autor nemá, spíš naopak, že? :-)

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Wasper 06. 08. 2025, 20:33:43

Citace: Zdenek Tomes 06. 08. 2025, 18:29:55

Tak evidentně problém s kolizí MD5 původní autor nemá, spíš naopak, že? :-)

Pardon, že vstupuji tak pozdě, ale opravdu je v celém vlákně řeč o tom, že kontrola MD5 je špatně, protože nějakej hypotetickej útočník, kterej dokáže na webu změnit package.deb tak, aby dosáhl kolize (pamatuji, že pan Klíma předvedl, že je potřeba pro kolizi mít volných 32 bitů padu, kterýma se předchozí změna 32 bitů "srovnala" nebo tak nějak nejlepší útok vypadal), takže magickým způsobem když místo package.deb.md5 tam dáme package.deb.sha384 (předpokládám, že většina diskutujících tuší, proč ne rovnou 512), tak nějakým zázrakem ten samej útočník nedokáže ten *.sha384 prostě přepsat jako tu původni package?

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák 06. 08. 2025, 20:50:51

Citace: Zdenek Tomes 06. 08. 2025, 18:29:55

Původní otázka: "stáhnu přes wget soubor a nesedí md5"

Kam jsme došli: "md5 je outdated, je snadné (???) vytvořit jiný soubor se stejným md5, musí se použít XXX nebo YYY, což je free-cool-in a moderní"

Tak evidentně problém s kolizí MD5 původní autor nemá, spíš naopak, že? :-)

Došli jsme k tomu, že lidé, kteří celou tu diskusi nečetli (protože jinak by zjistili, že takovýhle příspěvek už tu byl) svým úplně offtopic komentářem upozorňují, že diskuse je offtopic. Přičemž kdyby si tu diskusi přečetli, věděli by, že to vůbec nevadí protože původní problém byl dávno vyřešen.

Asi budeme potřebovat zavést „stupeň offtopic“, podobně jako se určuje třeba mohutnost množin. Takže už tu máme příspěvky offtopic⁰ příspěvky k vadnému hardwaru, offtopic¹ příspěvky o MD5, dále offtopic² příspěvky o tom, že příspěvky o MD5 jsou offtopic. A pak offtopic^LP příspěvky, z větší části smazané, které jsou offtopic úplně mimo všechny kategorie.

Citace: Wasper 06. 08. 2025, 20:33:43

Pardon, že vstupuji tak pozdě, ale opravdu je v celém vlákně řeč o tom, že…

Ne, není.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Wasper 06. 08. 2025, 22:15:14

Citace: Filip Jirsák 06. 08. 2025, 20:50:51

Ne, není.

Ale ano, je. Tak, jak to dělají ve zmíněném NextCloudu je naprosto správně a používají daný hash přesně způsobem, kde dává smysl (integrita), a nepoužívají ho tam, kde smysl nedává (gpg pokud se nepletu používá pro signaturu v defaultu sha256, který je k tomu vhodný), stačí číst místo dogmatického svatého boje.)

Citace: NextCloud Download

Download the .tar.bz2 or .zip archive.
Check package integrity using MD5 (.tar.bz2 / .zip) or SHA256 (.tar.bz2 / .zip)
Verify the authenticity via PGP (.tar.bz2 /.zip). The Nextcloud GPG key is here. You can also grab the keys by issueing this command:
gpg --keyserver keys.openpgp.org --recv-keys 28806A878AE423A28372792ED75899B9A724937A

tl;dr Proti chybě chrání dostatečně prakticky cokoli, nejen md5, ale klidně i half-md4, jen do crc32 bych nešel (1:4miliardy je sice dostatečně malá šance i tak, ale muselo by se vyloučit, že kdekoli, kudy ty data tečou na jakékoli architektuře, není použitej stejnej crc32, jinak by to jen potvrdilo chybu...), pro ověření je potřeba použít kryptograficky silný hash.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: Filip Jirsák (forum) 07. 08. 2025, 08:55:06

Citace: Wasper 06. 08. 2025, 22:15:14

Tak, jak to dělají ve zmíněném NextCloudu je naprosto správně

Není. Hash souboru se používá i tak, že si jej stáhnete důvěryhodnou cestou, a samotný soubor už pak můžete stáhnout jakkoli a na závěr jenom ověříte jeho hash.

Citace: Wasper 06. 08. 2025, 22:15:14

používají daný hash přesně způsobem, kde dává smysl (integrita)

Použití MD5 v takové situaci stejně smysl nedává, už to tu bylo vysvětleno několikrát.

Citace: Wasper 06. 08. 2025, 22:15:14

nepoužívají ho tam, kde smysl nedává

Když někde vystaví GPG klíč, mohou tam úplně stejně vystavit hash (vytvořený neprolomeným algoritmem) a bude to mít úplně stejnou funkci.

Citace: Wasper 06. 08. 2025, 22:15:14

tl;dr Proti chybě chrání dostatečně prakticky cokoli, nejen md5, ale klidně i half-md4, jen do crc32 bych nešel (1:4miliardy je sice dostatečně malá šance i tak, ale muselo by se vyloučit, že kdekoli, kudy ty data tečou na jakékoli architektuře, není použitej stejnej crc32, jinak by to jen potvrdilo chybu...), pro ověření je potřeba použít kryptograficky silný hash.

Akorát nedává smysl používat jeden prostředek na zajištění integrity a druhý prostředek na integrity+autenticity, protože integrita+autenticita v sobě integritu zahrnuje.

Je to stejné, jako HTTP vs. HTTPS nebo ifconfig vs iproute2 na Linuxu. Existují situace, kdy technicky nevadí použít HTTP, ifconfig nebo MD5. Akorát že ověření předpokladů, že to stačí, je nesrovnatelně náročnější, než prostě všude používat HTTPS, iproute2 a neprolomené hashovací funkce. Navíc u toho HTTP je aspoň nějaká výhoda oproti HTTPS – menší náročnost na zdroje. Jenže MD5 nemá oproti alternativám vůbec žádnou výhodu – třeba BLAKE3 je i výrazně rychlejší.

Speciálně u Nextcloudu to pak má ještě jeden aspekt. Prezentuje se jako řešení pro bezpečné uložení souborů. Když nějaký neznalý uživatel bude řešit otisky souborů, tak klidně použije MD5 – protože to přece používá i Nextcloud a ti snad problematice rozumí.

Ostatně proto vzniklo celé tohle offtopic vlákno – protože původní tazatel automaticky sáhl po MD5. Ale máme rok 2025, laik by vůbec neměl vědět, co je MD5, nebo by to měl mít zařazené někde u disket jako dávnou minulost. A odborník by se měl podivit, co tam ty .md5 soubory pořád dělají. No a vzhledem k tomu, že to tak stále není, je evidentně nutná osvěta ze strany odborníků.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: LamZelezo 07. 08. 2025, 11:06:19

Tohle vlakno uz davno neni o prenosu souboru, md5 nebo o sha256, ale o neuveritelne neschopnosti nekterych lidi pochopit psany text a jejich naprosto neprijatelne a nelidsky arogantni snaze sproste lhat do oci ostatnim.

Název: Re:Stažené soubory s nesedícím md5
Přispěvatel: mhepp 07. 08. 2025, 12:05:58

Jirsáku, a teď se s námi poděl, jak tvoje úvahy pomohly vyřešit tazateli problém. Myslím si, že je mu úplně jedno, jestli je MD5 v tomto případě vhodné nebo ne, protože s problémem to nemá nic společného.

Děláš tomuto diskuznímu fóru dost slušnou službu. Bohužel jen medvědí.