Odstranění duplicit a konsolidace dat

Kit · « **Odpověď #15 kdy:** 12. 05. 2026, 13:59:54 »

Citace: echo_zulu 12. 05. 2026, 11:53:14

Citace: Kit 12. 05. 2026, 00:15:52
Ve Windows je to tak komplikované? No jo, nemají roury...
PowerShell pochopiteľne "roury" má, a asi vás zmiatlo, že nepíšem o primitíve spájajúcom dve fázy spacovania, čo je menej dôležitý koncept, ale o celom mechanizme kolóny, označenom tak sme sa to kedysi dávno učili.

Pokud vím, tak Windows mají stále parodii na roury přes dočasné soubory. Není to efektivní a proto je uživatelé moc nepoužívají. Zejména při zpracování velkých souborů je to problém.

Citace: echo_zulu 12. 05. 2026, 10:32:11

Citace
Takže když v bloku n+1 změním písmenko, tak jsou soubory stále shodné?
- ak je ale kontrolný súčet za prvých n blokov rovnaký, tak ten rozdiel v jednom bajte zistíte v iterácii n+1, do iterácie n sú súbory kandidátmi na duplikáty, ale v iterácii n+1 nimi byť prestanú a tiež ich vyradíte z ďalšieho spracovania

Inak, mohol som asi použiť i na označenie čísla iterácie, ale to už je teraz jedno.

Takže ty soubory stejně musím projít celé, ale už chápu, že jen některé.

Reklama

Zopper · « **Odpověď #16 kdy:** 12. 05. 2026, 14:48:15 »

Citace: echo_zulu 12. 05. 2026, 10:32:11

Citace: Zopper 12. 05. 2026, 07:35:34
Citace: Kit 11. 05. 2026, 22:25:14
Sám jsem deduplikaci pomocí hash úspěšně udělal v Bashi na své sbírce filmů. Najde shodu i když mají různé názvy.
Pokud tě zajímají jen přesné duplicity, tak je to v pohodě, i když to na velkém úložišti bude prostě trvat (přečíst celý disk a prohnat ty TB skrz CPU...)

Práveže ak chcete iba nájsť presné duplicity, tak všetky tie TB dát cez CPU prehnať nemusíte, stačia iba tie, ktoré sú bezpodmienečne nutné.

Aha, pardon, asi jsem ještě neměl dost kofeinu v krvi. :-)

echo_zulu · « **Odpověď #17 kdy:** 12. 05. 2026, 15:04:04 »

Citace: Kit 12. 05. 2026, 13:59:54

Citace: echo_zulu 12. 05. 2026, 11:53:14
Citace: Kit 12. 05. 2026, 00:15:52
Ve Windows je to tak komplikované? No jo, nemají roury...
PowerShell pochopiteľne "roury" má, a asi vás zmiatlo, že nepíšem o primitíve spájajúcom dve fázy spacovania, čo je menej dôležitý koncept, ale o celom mechanizme kolóny, označenom tak sme sa to kedysi dávno učili.

Pokud vím, tak Windows mají stále parodii na roury přes dočasné soubory. Není to efektivní a proto je uživatelé moc nepoužívají. Zejména při zpracování velkých souborů je to problém.

Je možné, že si mýlite operačný systém a programovací jazyk? To by sa v kombinácii s tým ako autoritatívne sa vyjadrujete k príspevkom ostatných asi nemalo stávať.

Jasne píšem, že je to pre PowerShell a ten predsa beží aj na Linuxe aj na MasOS. Tak prečo do toho montujete Windows, mimochodom vo verzii 95, možno 98? Odvtedy už tie veci, ktoré spomínate fungujú inak a to už je minimálne štvrť storočia. Okrem toho v prvej odpovedi spomínam aj iné programovacie jazyky. Mechanizmus vyraďovania súborov, ktoré nie sú duplikátmi ostane rovnaký.

Citace: Kit 12. 05. 2026, 13:59:54

Citace: echo_zulu 12. 05. 2026, 10:32:11
Citace
Takže když v bloku n+1 změním písmenko, tak jsou soubory stále shodné?
- ak je ale kontrolný súčet za prvých n blokov rovnaký, tak ten rozdiel v jednom bajte zistíte v iterácii n+1, do iterácie n sú súbory kandidátmi na duplikáty, ale v iterácii n+1 nimi byť prestanú a tiež ich vyradíte z ďalšieho spracovania

Inak, mohol som asi použiť i na označenie čísla iterácie, ale to už je teraz jedno.

Takže ty soubory stejně musím projít celé, ale už chápu, že jen některé.

Áno, ale iba tie, ktoré sú naozaj duplikátmi, tomu sa nedá zabrániť, ak chceta mať istotu. Veľa z tých, ktoré duplikátmi nie sú vypadne v prvých iteráciách.

echo_zulu · « **Odpověď #18 kdy:** 12. 05. 2026, 15:10:04 »

Citace: Zopper 12. 05. 2026, 14:48:15

Citace: echo_zulu 12. 05. 2026, 10:32:11
Citace: Zopper 12. 05. 2026, 07:35:34
Citace: Kit 11. 05. 2026, 22:25:14
Sám jsem deduplikaci pomocí hash úspěšně udělal v Bashi na své sbírce filmů. Najde shodu i když mají různé názvy.
Pokud tě zajímají jen přesné duplicity, tak je to v pohodě, i když to na velkém úložišti bude prostě trvat (přečíst celý disk a prohnat ty TB skrz CPU...)

Práveže ak chcete iba nájsť presné duplicity, tak všetky tie TB dát cez CPU prehnať nemusíte, stačia iba tie, ktoré sú bezpodmienečne nutné.
Aha, pardon, asi jsem ještě neměl dost kofeinu v krvi. :-)

To nevadí, nemám problém niečo zopakovať. Je fakt, že tá moja prvá odpoveď bola dosť dlhá.

jjrsk · « **Odpověď #19 kdy:** 12. 05. 2026, 17:04:36 »

Koukam ze neni nad to vymejslet kolo ...

btrfs = vsechno na jednom storage, deduplikace na urovni FS. Nijak jinak to stejne udelat nejde, nebude to fungovat.

Samozrejme pripadne od toho mit nejaky backup, ktery se opet muze delat rozdilove prostrednicvim btrfs snapu.

Nevim o jak moc velkej domaci bordelak se jedna, ale ve firemnich bordelacich je redukce dat mezi 50-80%. Nema totiz zadnej smysl lidem vysvetlovat, ze si vazne nemusej kazdou chujovinu ukladat "k sobe". At to tam tudiz klidne maj, a klidne kazdej jeden 100x.

Ovsem pokud ten domaci bordelaj je alespon castecne svepravnej, necekej od toho vic nez 30%. Neco malo navic se da prihodit zapnutim komprese, coz ma tu vyhodu, ze medialni soubory se nekomprimujou, protoze to pozna ze to nema smysl.

Reklama

Karmelos · « **Odpověď #20 kdy:** 12. 05. 2026, 17:42:28 »

Citace: jjrsk 12. 05. 2026, 17:04:36

Koukam ze neni nad to vymejslet kolo ...

btrfs = vsechno na jednom storage, deduplikace na urovni FS. Nijak jinak to stejne udelat nejde, nebude to fungovat.

Samozrejme pripadne od toho mit nejaky backup, ktery se opet muze delat rozdilove prostrednicvim btrfs snapu.

Nevim o jak moc velkej domaci bordelak se jedna, ale ve firemnich bordelacich je redukce dat mezi 50-80%. Nema totiz zadnej smysl lidem vysvetlovat, ze si vazne nemusej kazdou chujovinu ukladat "k sobe". At to tam tudiz klidne maj, a klidne kazdej jeden 100x.

Ovsem pokud ten domaci bordelaj je alespon castecne svepravnej, necekej od toho vic nez 30%. Neco malo navic se da prihodit zapnutim komprese, coz ma tu vyhodu, ze medialni soubory se nekomprimujou, protoze to pozna ze to nema smysl.

Tak já třeba mám redundaci tak u něčeho i 400-600% kvulivá každoročnímu stažení kompletních projektových dat, kdy ty projekty běžej 4-6 let, takže některý soubory klidně několikrát bezezměny, jiný úplně se stejným názvem pokaždý jiný... to se fakt ta deduplikace dělá dooost blbě... snažil jsem se několikrát, nelíp se mi jevilo sehrát to všechno k sobě ale poté co jsem si přemazal staršíma souborama novější jsem od toho upustil a jenom to celý pokaždý zipnu a dokoupil jsem větší disk.

Kit · « **Odpověď #21 kdy:** 12. 05. 2026, 17:47:20 »

Citace: echo_zulu 12. 05. 2026, 15:04:04

Citace: Kit 12. 05. 2026, 13:59:54
Citace: echo_zulu 12. 05. 2026, 11:53:14
Citace: Kit 12. 05. 2026, 00:15:52
Ve Windows je to tak komplikované? No jo, nemají roury...
PowerShell pochopiteľne "roury" má, a asi vás zmiatlo, že nepíšem o primitíve spájajúcom dve fázy spacovania, čo je menej dôležitý koncept, ale o celom mechanizme kolóny, označenom tak sme sa to kedysi dávno učili.

Pokud vím, tak Windows mají stále parodii na roury přes dočasné soubory. Není to efektivní a proto je uživatelé moc nepoužívají. Zejména při zpracování velkých souborů je to problém.

Je možné, že si mýlite operačný systém a programovací jazyk? To by sa v kombinácii s tým ako autoritatívne sa vyjadrujete k príspevkom ostatných asi nemalo stávať.

Jasne píšem, že je to pre PowerShell a ten predsa beží aj na Linuxe aj na MasOS. Tak prečo do toho montujete Windows, mimochodom vo verzii 95, možno 98? Odvtedy už tie veci, ktoré spomínate fungujú inak a to už je minimálne štvrť storočia. Okrem toho v prvej odpovedi spomínam aj iné programovacie jazyky. Mechanizmus vyraďovania súborov, ktoré nie sú duplikátmi ostane rovnaký.

V Linuxu je podpora pipe službou operačního systému, není tedy součástí aplikace. Vůbec nevyužívá souborový systém, data jdou od producenta ke konzumentovi přes velmi malou část operační paměti. Ve Windows je podpora emulována přes soubory a tím má mizerný výkon. Netuším, zda to v pozdějších verzích napravili, ale nemám to jak zjistit. V desítkách to ještě nebylo a obávám se, že to tam stále není.

echo_zulu · « **Odpověď #22 kdy:** 12. 05. 2026, 18:24:42 »

Citace: Kit 12. 05. 2026, 17:47:20

Citace: echo_zulu 12. 05. 2026, 15:04:04
Citace: Kit 12. 05. 2026, 13:59:54
Citace: echo_zulu 12. 05. 2026, 11:53:14
Citace: Kit 12. 05. 2026, 00:15:52
Ve Windows je to tak komplikované? No jo, nemají roury...
PowerShell pochopiteľne "roury" má, a asi vás zmiatlo, že nepíšem o primitíve spájajúcom dve fázy spacovania, čo je menej dôležitý koncept, ale o celom mechanizme kolóny, označenom tak sme sa to kedysi dávno učili.

Pokud vím, tak Windows mají stále parodii na roury přes dočasné soubory. Není to efektivní a proto je uživatelé moc nepoužívají. Zejména při zpracování velkých souborů je to problém.

Je možné, že si mýlite operačný systém a programovací jazyk? To by sa v kombinácii s tým ako autoritatívne sa vyjadrujete k príspevkom ostatných asi nemalo stávať.

Jasne píšem, že je to pre PowerShell a ten predsa beží aj na Linuxe aj na MasOS. Tak prečo do toho montujete Windows, mimochodom vo verzii 95, možno 98? Odvtedy už tie veci, ktoré spomínate fungujú inak a to už je minimálne štvrť storočia. Okrem toho v prvej odpovedi spomínam aj iné programovacie jazyky. Mechanizmus vyraďovania súborov, ktoré nie sú duplikátmi ostane rovnaký.

V Linuxu je podpora pipe službou operačního systému, není tedy součástí aplikace. Vůbec nevyužívá souborový systém, data jdou od producenta ke konzumentovi přes velmi malou část operační paměti. Ve Windows je podpora emulována přes soubory a tím má mizerný výkon. Netuším, zda to v pozdějších verzích napravili, ale nemám to jak zjistit. V desítkách to ještě nebylo a obávám se, že to tam stále není.

Vy si naozaj mýlite operačný systém a programovací jazyk. To že je na jednej platforme niečo implementované nejako neznamená, že to tak nutne musí byť implementované aj na iných platformách.

Už som vám naznačoval, že to, čo ste popisovali, je už viac ako 25 rokov vyriešené a teda žiadne súbory tam nie sú. A okrem toho, v PowerShelli idú dáta cez kolónu k spotrebiteľovi cez ešte menšiu časť pamäte ako v Linuxe. Dokumentácia aj zdrojový kód sú tuším otvorené a verejne dostupné.

Kit · « **Odpověď #23 kdy:** 12. 05. 2026, 19:33:43 »

Citace: echo_zulu 12. 05. 2026, 18:24:42

Už som vám naznačoval, že to, čo ste popisovali, je už viac ako 25 rokov vyriešené a teda žiadne súbory tam nie sú. A okrem toho, v PowerShelli idú dáta cez kolónu k spotrebiteľovi cez ešte menšiu časť pamäte ako v Linuxe. Dokumentácia aj zdrojový kód sú tuším otvorené a verejne dostupné.

Dá se to poznat tak, že tou rourou pošlu třeba 200 GB dat, když je jen 100 GB volného místa v úložišti. Pokud mám pravdu, tak to zkolabuje. Pokud nemám pravdu, tak to proběhne během několika málo sekund.

Ve Windows 10 mi to zkolabovalo.

echo_zulu · « **Odpověď #24 kdy:** 12. 05. 2026, 22:02:34 »

Citace: Kit 12. 05. 2026, 19:33:43

Citace: echo_zulu 12. 05. 2026, 18:24:42
Už som vám naznačoval, že to, čo ste popisovali, je už viac ako 25 rokov vyriešené a teda žiadne súbory tam nie sú. A okrem toho, v PowerShelli idú dáta cez kolónu k spotrebiteľovi cez ešte menšiu časť pamäte ako v Linuxe. Dokumentácia aj zdrojový kód sú tuším otvorené a verejne dostupné.

Dá se to poznat tak, že tou rourou pošlu třeba 200 GB dat, když je jen 100 GB volného místa v úložišti. Pokud mám pravdu, tak to zkolabuje. Pokud nemám pravdu, tak to proběhne během několika málo sekund.

Ve Windows 10 mi to zkolabovalo.

Nehnevajte sa, ale vy naozaj pôsobíte v IT? Nemyslím si, že má pre mňa zmysel pokračovať v debate s niekým, kto očividne nepozná rozdiel medzi programovacím jazykom a operačným systémom, kto sa nenamáha prečítať si navhrnuté riešenie predtým ako sa k nemu vyjadrí a kto sa neobťažuje zistiť si ako veci v skutočnosti fungujú na iných platformách, napriek tomu, že dostane informáciu, že je všetko prístupné a že veci už dávno fungujú inak ako si celé roky myslí.

Neviem, čo vám skrachovalo, v podstate ma to ani nezaujíma, neobťažovali ste sa sem vlepiť príkazy, ktoré ste použili, dohadovať sa o tom, čo to bolo a riešiť to je pre mňa strata času, ale z toho popisu, čo ste sem dali si myslím, že je to úplne mimo kontext toho, čo som písal ja, aj mimo mnou navrhnutého riešenia, pretože v tom nikto žiadne veľké dáta cez kolónu neposiela. To nakoniec v PowerShelli v rámci jeho štandardnej knižnice celkovo nerobí nikto, posielaný je odkaz na objekt .Net obsahujúci metadáta týkajúce sa položky súborového systému, ako napríklad cesta, dátumy, veľkosť, vlastnosti, atď., prípadne ďalšie pridané vlastnosti. Dáta zo súboru sú načítavané prúdom .Net po častiach, inkrementálny hash je tiež počítaný objektom z .Net. To všetko je uvedené už v mojom prvom príspevku.

Správate sa ako troll, ktorý, keď vidí niekde napísané Windows, jednoducho sa potrebuje vyjadriť, že Windows je šmejd, napriek tomu, že daná téma sa Windows vôbec nijako netýka. Okrem toho, že predrečník má vo Windows dáta. Ale má ich aj na Linuxe a PowerShell funguje aj tam. Podobnú skupina tvoria ľudia, ktorí sa správajú rovnako, keď vidia niekde napísané C++. Nebol by som prekvapený, keby ste boli členom oboch skupín.

Ja osobne som do tejto témy zapojil výhradne kvôli tomu, že tu predtým panoval názor, že je nutné kvôli deduplikácii počítať hash z celého objemu dát všetkých súborov, čo teda ani náhodou nie je pravda a aspoň toto si už možno uvedomujete aj vy, takže som rád, že som to mohol objasniť a možno trochu zjednodušiť život aj vám a to napriek tomu, že ste písali, že je to optimalizácia, ktorá nie je potrebná.

Ostatné veci už s dovolením nechávam na vaše samoštúdium.

Kit · « **Odpověď #25 kdy:** 13. 05. 2026, 09:09:17 »

Citace: echo_zulu 12. 05. 2026, 22:02:34

Neviem, čo vám skrachovalo, v podstate ma to ani nezaujíma, neobťažovali ste sa sem vlepiť príkazy, ktoré ste použili, dohadovať sa o tom, čo to bolo a riešiť to je pre mňa strata času, ale z toho popisu, čo ste sem dali si myslím, že je to úplne mimo kontext toho, čo som písal ja, aj mimo mnou navrhnutého riešenia, pretože v tom nikto žiadne veľké dáta cez kolónu neposiela. To nakoniec v PowerShelli v rámci jeho štandardnej knižnice celkovo nerobí nikto, posielaný je odkaz na objekt .Net obsahujúci metadáta týkajúce sa položky súborového systému, ako napríklad cesta, dátumy, veľkosť, vlastnosti, atď., prípadne ďalšie pridané vlastnosti. Dáta zo súboru sú načítavané prúdom .Net po častiach, inkrementálny hash je tiež počítaný objektom z .Net. To všetko je uvedené už v mojom prvom príspevku.

Přes kolonu běžně posílám desítky GB dat. Jednoduchý příkaz:

Kód: [Vybrat]

tar czvf - adresář | gzip > archiv.tgzFunguje to skvěle, rychle a využiji tím 2 jádra procesoru současně.

Pro deduplikaci souborů:

Kód: [Vybrat]

sha256sum . | sort | filtr_mazající_duplicity

echo_zulu · « **Odpověď #26 kdy:** 13. 05. 2026, 22:18:05 »

Citace: Kit 13. 05. 2026, 09:09:17

Citace: echo_zulu 12. 05. 2026, 22:02:34
Neviem, čo vám skrachovalo, v podstate ma to ani nezaujíma, neobťažovali ste sa sem vlepiť príkazy, ktoré ste použili, dohadovať sa o tom, čo to bolo a riešiť to je pre mňa strata času, ale z toho popisu, čo ste sem dali si myslím, že je to úplne mimo kontext toho, čo som písal ja, aj mimo mnou navrhnutého riešenia, pretože v tom nikto žiadne veľké dáta cez kolónu neposiela. To nakoniec v PowerShelli v rámci jeho štandardnej knižnice celkovo nerobí nikto, posielaný je odkaz na objekt .Net obsahujúci metadáta týkajúce sa položky súborového systému, ako napríklad cesta, dátumy, veľkosť, vlastnosti, atď., prípadne ďalšie pridané vlastnosti. Dáta zo súboru sú načítavané prúdom .Net po častiach, inkrementálny hash je tiež počítaný objektom z .Net. To všetko je uvedené už v mojom prvom príspevku.

Přes kolonu běžně posílám desítky GB dat. Jednoduchý příkaz:
Kód: [Vybrat]
tar czvf - adresář | gzip > archiv.tgzFunguje to skvěle, rychle a využiji tím 2 jádra procesoru současně.

Pro deduplikaci souborů:
Kód: [Vybrat]
sha256sum . | sort | filtr_mazající_duplicity

A? Má to niečo spoločné s mojou prvotnou odpoveďou? Vidíte v nej niekde, že by som cez kolónu posielal nejaké veľké dáta?

Prípadne, má to niečo spoločné s mojou poslednou odpoveďou? Že neviem, čo konkrétne a kde konkrétne ste písali, keď vám to skolabovalo?

Táto konkrétna vec totiž na Windows funguje principiálne rovnako ano na Linuxe. S prihliadnutím na rozdiely v API a v modeli procesov a vlákien. Asi tak od čias NT 3.1. To bol rok asi tak 1993. Už som vám to niekoľkokrát opakoval. Ale je to márne, je to márne, je to očividne márne.

Záver pre mňa: niekde ste počuli niečo, čo platilo pre Windows 95 a ste schopný opakovať to do nekonečna bez toho aby ste sa obťažovali vyhľadať si ako to v skutočnosti je. Plus si ešte mýlite operačný systém a programovací jazyk. Ale to už som písal.

Odstranění duplicit a konsolidace dat

Kit

Re:Odstranění duplicit a konsolidace dat

Reklama

Zopper

Re:Odstranění duplicit a konsolidace dat

echo_zulu

Re:Odstranění duplicit a konsolidace dat

echo_zulu

Re:Odstranění duplicit a konsolidace dat

jjrsk

Re:Odstranění duplicit a konsolidace dat

Reklama

Karmelos

Re:Odstranění duplicit a konsolidace dat

Kit

Re:Odstranění duplicit a konsolidace dat

echo_zulu

Re:Odstranění duplicit a konsolidace dat

Kit

Re:Odstranění duplicit a konsolidace dat

echo_zulu

Re:Odstranění duplicit a konsolidace dat

Kit

Re:Odstranění duplicit a konsolidace dat

echo_zulu

Re:Odstranění duplicit a konsolidace dat