Fórum Root.cz

Hlavní témata => Server => Téma založeno: cik951 20. 01. 2014, 22:49:17

Název: Záloha duplicitních dat
Přispěvatel: cik951 20. 01. 2014, 22:49:17

Dobrý den,

Když jsem udělal takový menší test na duplicitu fotek ( ne mých :) ) , tak jsem zjistil, že z 27000 fotek jich je asi 3500 zbytečně duplicitních. ( Pokud by někoho zajímalo jak, tak pomocí md5deep a setřídění dat podle hashe )

A když jsem nad tím přemýšlel, tak mě napadlo, že s velkou pravděpodobností se stejným způsobem zálohuje zbytečně velké množství souborů i u klasických uživatelských záloh.

Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.

Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?

Díky za každou odpověď

Název: Re:Záloha duplicitních dat
Přispěvatel: krako 20. 01. 2014, 23:18:45

ZFS - deduplicate

Název: Re:Záloha duplicitních dat
Přispěvatel: Pavel 'TIGER' Růžička 20. 01. 2014, 23:22:28

Já jdu cestou nejmenšího a zálohuji vše. Podle mne by to porovnávání podstatně prodloužilo dobu zálohování. Navíc kdyby nastal nejčernější scénář a všechny disky najednou selhali, tak pořád je větší naděje na obnovu, pokud soubor bude na disku několikrát, než jen jednou. Cena prostoru je dnes velice směšná a lidé pokládají za životně důležité kdejaké nesmyslné soubory. Tak jim to dopřejme.

Název: Re:Záloha duplicitních dat
Přispěvatel: hggvjihv 21. 01. 2014, 05:16:03

souhlas, zalohuju vsecko, ani netridim. snad to roztridim v duchodu.

Název: Re:Záloha duplicitních dat
Přispěvatel: Jalko 21. 01. 2014, 10:30:41

Tiez zalohujem bez selekcie duplicit, pre dolezitejsie veci do prace drzim starsie zalohy. Uz som nad podobnymi rieseniami rozmyslal, ale nahoda je ... a zrovna ked ten subor budem najviac potrebovat, tak tam nebude alebo bude poskodeny. Osobne nezalohujem uplne vsetky data, takze to moc priestoru nestoji a disky su lacne(relativne, mohli by byt viac:-) )

Název: Re:Záloha duplicitních dat
Přispěvatel: trubicoid2 21. 01. 2014, 14:58:43

bud zfs, brtfs s dedupikaci, nebo treba https://code.google.com/p/fdupes/

Název: Re:Záloha duplicitních dat
Přispěvatel: Suchý čert 21. 01. 2014, 15:06:50

http://backuppc.sourceforge.net/

Název: Re:Záloha duplicitních dat
Přispěvatel: Tomáš Crhonek 21. 01. 2014, 16:38:22

Citace: cik951 20. 01. 2014, 22:49:17

Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.

Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?

BackupPC :-) Tam je to vylepšené ještě o to, že pokud zálohujete více serverů, kde jsou ty samé soubory jako jinde, tak se ukládají pouze jednou. Stejně tak v historii záloh.

Nebo nějaký FS s deduplikací.

Název: Re:Záloha duplicitních dat
Přispěvatel: JS 21. 01. 2014, 19:35:28

Hraju si ted s git-annex, taky moznost (i kdyz trochu vic technicka).

Název: Re:Záloha duplicitních dat
Přispěvatel: Pavel Tisnovsky 21. 01. 2014, 19:53:33

Nestacil by stary dobry rsync?

Název: Re:Záloha duplicitních dat
Přispěvatel: cik951 21. 01. 2014, 21:47:53

Citace: Pavel Tisnovsky 21. 01. 2014, 19:53:33

Nestacil by stary dobry rsync?

Asi potřebuji nakopnout, ale jak pomocí rsync vyřeším duplicitní soubory ( včetně situace, že je stejný obsah, ale jiný název ) ?

Název: Re:Záloha duplicitních dat
Přispěvatel: Pavel 'TIGER' Růžička 21. 01. 2014, 21:57:46

Citace: cik951 21. 01. 2014, 21:47:53

Citace: Pavel Tisnovsky 21. 01. 2014, 19:53:33
Nestacil by stary dobry rsync?
Asi potřebuji nakopnout, ale jak pomocí rsync vyřeším duplicitní soubory ( včetně situace, že je stejný obsah, ale jiný název ) ?

Na to pochopitelně rsync nestačí.

Název: Re:Záloha duplicitních dat
Přispěvatel: cik951 21. 01. 2014, 22:25:37

Díky za odpovědi všem

ZFS - deduplicate - vypadá rozhodně zajímavě na první pohled, ale zdá se, že bude dost náročný na zdroje. V nějakém článku se dokonce píše, že považují 16GB paměti za minimum pro ZFS s deduplikací, což mi příjde dost :) Ale určitě zfs s deduplikací někdy vyzkouším
Díky za tipy na BackupPC a git-annex

Název: Re:Záloha duplicitních dat
Přispěvatel: bwbw 21. 01. 2014, 22:41:55

Citace: cik951 21. 01. 2014, 22:25:37

Díky za odpovědi všem
ZFS - deduplicate - vypadá rozhodně zajímavě na první pohled, ale zdá se, že bude dost náročný na zdroje. V nějakém článku se dokonce píše, že považují 16GB paměti za minimum pro ZFS s deduplikací, což mi příjde dost :) Ale určitě zfs s deduplikací někdy vyzkouším

http://constantin.glez.de/blog/2011/07/zfs-dedupe-or-not-dedupe aby to nebolo 'mam 16GB a WTF?' ;)[/list]