Záloha duplicitních dat

cik951 · « **kdy:** 20. 01. 2014, 22:49:17 »

Dobrý den,

Když jsem udělal takový menší test na duplicitu fotek ( ne mých

) , tak jsem zjistil, že z 27000 fotek jich je asi 3500 zbytečně duplicitních. ( Pokud by někoho zajímalo jak, tak pomocí md5deep a setřídění dat podle hashe )

A když jsem nad tím přemýšlel, tak mě napadlo, že s velkou pravděpodobností se stejným způsobem zálohuje zbytečně velké množství souborů i u klasických uživatelských záloh.

Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.

Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?

Díky za každou odpověď

Reklama

krako · « **Odpověď #1 kdy:** 20. 01. 2014, 23:18:45 »

ZFS - deduplicate

Pavel 'TIGER' Růžička · « **Odpověď #2 kdy:** 20. 01. 2014, 23:22:28 »

Já jdu cestou nejmenšího a zálohuji vše. Podle mne by to porovnávání podstatně prodloužilo dobu zálohování. Navíc kdyby nastal nejčernější scénář a všechny disky najednou selhali, tak pořád je větší naděje na obnovu, pokud soubor bude na disku několikrát, než jen jednou. Cena prostoru je dnes velice směšná a lidé pokládají za životně důležité kdejaké nesmyslné soubory. Tak jim to dopřejme.

hggvjihv · « **Odpověď #3 kdy:** 21. 01. 2014, 05:16:03 »

souhlas, zalohuju vsecko, ani netridim. snad to roztridim v duchodu.

Jalko · « **Odpověď #4 kdy:** 21. 01. 2014, 10:30:41 »

Tiez zalohujem bez selekcie duplicit, pre dolezitejsie veci do prace drzim starsie zalohy. Uz som nad podobnymi rieseniami rozmyslal, ale nahoda je ... a zrovna ked ten subor budem najviac potrebovat, tak tam nebude alebo bude poskodeny. Osobne nezalohujem uplne vsetky data, takze to moc priestoru nestoji a disky su lacne(relativne, mohli by byt viac:-) )

Reklama

trubicoid2 · « **Odpověď #5 kdy:** 21. 01. 2014, 14:58:43 »

bud zfs, brtfs s dedupikaci, nebo treba https://code.google.com/p/fdupes/

Suchý čert · « **Odpověď #6 kdy:** 21. 01. 2014, 15:06:50 »

http://backuppc.sourceforge.net/

Tomáš Crhonek · « **Odpověď #7 kdy:** 21. 01. 2014, 16:38:22 »

Citace: cik951 20. 01. 2014, 22:49:17

Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.

Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?

BackupPC :-) Tam je to vylepšené ještě o to, že pokud zálohujete více serverů, kde jsou ty samé soubory jako jinde, tak se ukládají pouze jednou. Stejně tak v historii záloh.

Nebo nějaký FS s deduplikací.

JS · « **Odpověď #8 kdy:** 21. 01. 2014, 19:35:28 »

Hraju si ted s git-annex, taky moznost (i kdyz trochu vic technicka).

Pavel Tisnovsky · « **Odpověď #9 kdy:** 21. 01. 2014, 19:53:33 »

Nestacil by stary dobry rsync?

cik951 · « **Odpověď #10 kdy:** 21. 01. 2014, 21:47:53 »

Citace: Pavel Tisnovsky 21. 01. 2014, 19:53:33

Nestacil by stary dobry rsync?

Asi potřebuji nakopnout, ale jak pomocí rsync vyřeším duplicitní soubory ( včetně situace, že je stejný obsah, ale jiný název ) ?

Pavel 'TIGER' Růžička · « **Odpověď #11 kdy:** 21. 01. 2014, 21:57:46 »

Citace: cik951 21. 01. 2014, 21:47:53

Citace: Pavel Tisnovsky 21. 01. 2014, 19:53:33
Nestacil by stary dobry rsync?
Asi potřebuji nakopnout, ale jak pomocí rsync vyřeším duplicitní soubory ( včetně situace, že je stejný obsah, ale jiný název ) ?

Na to pochopitelně rsync nestačí.

cik951 · « **Odpověď #12 kdy:** 21. 01. 2014, 22:25:37 »

Díky za odpovědi všem

ZFS - deduplicate - vypadá rozhodně zajímavě na první pohled, ale zdá se, že bude dost náročný na zdroje. V nějakém článku se dokonce píše, že považují 16GB paměti za minimum pro ZFS s deduplikací, což mi příjde dost Ale určitě zfs s deduplikací někdy vyzkouším
Díky za tipy na BackupPC a git-annex

bwbw · « **Odpověď #13 kdy:** 21. 01. 2014, 22:41:55 »

Citace: cik951 21. 01. 2014, 22:25:37

Díky za odpovědi všem
ZFS - deduplicate - vypadá rozhodně zajímavě na první pohled, ale zdá se, že bude dost náročný na zdroje. V nějakém článku se dokonce píše, že považují 16GB paměti za minimum pro ZFS s deduplikací, což mi příjde dost Ale určitě zfs s deduplikací někdy vyzkouším

http://constantin.glez.de/blog/2011/07/zfs-dedupe-or-not-dedupe aby to nebolo 'mam 16GB a WTF?'

[/list]

Záloha duplicitních dat

cik951

Záloha duplicitních dat

Reklama

krako

Re:Záloha duplicitních dat

Pavel 'TIGER' Růžička

Re:Záloha duplicitních dat

hggvjihv

Re:Záloha duplicitních dat

Jalko

Re:Záloha duplicitních dat

Reklama

trubicoid2

Re:Záloha duplicitních dat

Suchý čert

Re:Záloha duplicitních dat

Tomáš Crhonek

Re:Záloha duplicitních dat

JS

Re:Záloha duplicitních dat

Pavel Tisnovsky

Re:Záloha duplicitních dat

cik951

Re:Záloha duplicitních dat

Pavel 'TIGER' Růžička

Re:Záloha duplicitních dat

cik951

Re:Záloha duplicitních dat

bwbw

Re:Záloha duplicitních dat