Dobrý den,
Když jsem udělal takový menší test na duplicitu fotek ( ne mých

) , tak jsem zjistil, že z 27000 fotek jich je asi 3500 zbytečně duplicitních. ( Pokud by někoho zajímalo jak, tak pomocí md5deep a setřídění dat podle hashe )
A když jsem nad tím přemýšlel, tak mě napadlo, že s velkou pravděpodobností se stejným způsobem zálohuje zbytečně velké množství souborů i u klasických uživatelských záloh.
Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.
Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?
Díky za každou odpověď