1
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 11. 05. 2026, 23:11:56 »sam mam zkusenost, ze delat hash jednotlivych souboru a porovnavat je overkill.
udelat deduplikovani relativne malych textaku a zdrojaku a xml asi jde, ale u velkych obrazku a binarnich souboru je to skoro nemozne.
takze ja bych to zkusil jen na nazvech adresaru a nazvech souboru, cesty a nazvy souboru jde zpracovat bud skripty nebo pomoci ai.
az v poslednim kroku zkusit porovnat velikost, hash pro soubory se stejnou cestou a stejnym nazvem.
Sám jsem deduplikaci pomocí hash úspěšně udělal v Bashi na své sbírce filmů. Najde shodu i když mají různé názvy. Nevidím v tom žádný overkill, prostě to funguje. Skript asi na 6 řádek - bylo to nečekaně rychlé. Prostě stačí výstup sha256sum seřadit a pustit do filtru, který ty duplicity zobrazí, případně rovnou smaže.
no u nekolika gigoveho filmu mi ten hash trval i 10s, tak to se mi nechtelo zase tak cekat, takze jsem nejprve porovnaval jen nazvy adresaru a souboru.
