Záloha duplicitních dat

Záloha duplicitních dat
« kdy: 20. 01. 2014, 22:49:17 »
Dobrý den,

Když jsem udělal takový menší test na duplicitu fotek ( ne mých  :) ) , tak jsem zjistil, že z 27000 fotek jich je asi 3500 zbytečně duplicitních. ( Pokud by někoho zajímalo jak, tak pomocí md5deep a setřídění dat podle hashe )

A když jsem nad tím přemýšlel, tak mě napadlo, že s velkou pravděpodobností se stejným způsobem zálohuje zbytečně velké množství souborů i u klasických uživatelských záloh.

Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.

Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?

Díky za každou odpověď


krako

Re:Záloha duplicitních dat
« Odpověď #1 kdy: 20. 01. 2014, 23:18:45 »
ZFS - deduplicate

Pavel 'TIGER' Růžička

Re:Záloha duplicitních dat
« Odpověď #2 kdy: 20. 01. 2014, 23:22:28 »
Já jdu cestou nejmenšího a zálohuji vše. Podle mne by to porovnávání podstatně prodloužilo dobu zálohování. Navíc kdyby nastal nejčernější scénář a všechny disky najednou selhali, tak pořád je větší naděje na obnovu, pokud soubor bude na disku několikrát, než jen jednou. Cena prostoru je dnes velice směšná a lidé pokládají za životně důležité kdejaké nesmyslné soubory. Tak jim to dopřejme.

hggvjihv

Re:Záloha duplicitních dat
« Odpověď #3 kdy: 21. 01. 2014, 05:16:03 »
souhlas, zalohuju vsecko, ani netridim. snad to roztridim v duchodu.


Jalko

Re:Záloha duplicitních dat
« Odpověď #4 kdy: 21. 01. 2014, 10:30:41 »
Tiez zalohujem bez selekcie duplicit, pre dolezitejsie veci do prace drzim starsie zalohy. Uz som nad podobnymi rieseniami rozmyslal, ale nahoda je ... a zrovna ked ten subor budem najviac potrebovat, tak tam nebude alebo bude poskodeny. Osobne nezalohujem uplne vsetky data, takze to moc priestoru nestoji a disky su lacne(relativne, mohli by byt viac:-) )


trubicoid2

Re:Záloha duplicitních dat
« Odpověď #5 kdy: 21. 01. 2014, 14:58:43 »
bud zfs, brtfs s dedupikaci, nebo treba  https://code.google.com/p/fdupes/

Re:Záloha duplicitních dat
« Odpověď #6 kdy: 21. 01. 2014, 15:06:50 »

Re:Záloha duplicitních dat
« Odpověď #7 kdy: 21. 01. 2014, 16:38:22 »
Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.

Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?

BackupPC :-) Tam je to vylepšené ještě o to, že pokud zálohujete více serverů, kde jsou ty samé soubory jako jinde, tak se ukládají pouze jednou. Stejně tak v historii záloh.

Nebo nějaký FS s deduplikací.

JS

Re:Záloha duplicitních dat
« Odpověď #8 kdy: 21. 01. 2014, 19:35:28 »
Hraju si ted s git-annex, taky moznost (i kdyz trochu vic technicka).

Pavel Tisnovsky

Re:Záloha duplicitních dat
« Odpověď #9 kdy: 21. 01. 2014, 19:53:33 »
Nestacil by stary dobry rsync?

Re:Záloha duplicitních dat
« Odpověď #10 kdy: 21. 01. 2014, 21:47:53 »
Nestacil by stary dobry rsync?
Asi potřebuji nakopnout, ale jak pomocí rsync vyřeším duplicitní soubory ( včetně situace, že je stejný obsah, ale jiný název ) ?

Pavel 'TIGER' Růžička

Re:Záloha duplicitních dat
« Odpověď #11 kdy: 21. 01. 2014, 21:57:46 »
Nestacil by stary dobry rsync?
Asi potřebuji nakopnout, ale jak pomocí rsync vyřeším duplicitní soubory ( včetně situace, že je stejný obsah, ale jiný název ) ?
Na to pochopitelně rsync nestačí.

Re:Záloha duplicitních dat
« Odpověď #12 kdy: 21. 01. 2014, 22:25:37 »
Díky za odpovědi všem
  • ZFS - deduplicate - vypadá rozhodně zajímavě na první pohled, ale zdá se, že bude dost náročný na zdroje. V nějakém článku se dokonce píše, že považují 16GB paměti za minimum pro ZFS s deduplikací, což mi příjde dost :) Ale určitě zfs s deduplikací někdy vyzkouším
  • Díky za tipy na BackupPC a git-annex

bwbw

Re:Záloha duplicitních dat
« Odpověď #13 kdy: 21. 01. 2014, 22:41:55 »
Díky za odpovědi všem
  • ZFS - deduplicate - vypadá rozhodně zajímavě na první pohled, ale zdá se, že bude dost náročný na zdroje. V nějakém článku se dokonce píše, že považují 16GB paměti za minimum pro ZFS s deduplikací, což mi příjde dost :) Ale určitě zfs s deduplikací někdy vyzkouším

http://constantin.glez.de/blog/2011/07/zfs-dedupe-or-not-dedupe aby to nebolo 'mam 16GB a WTF?' ;)[/list]