Fórum Root.cz
Hlavní témata => Server => Téma založeno: cik951 20. 01. 2014, 22:49:17
-
Dobrý den,
Když jsem udělal takový menší test na duplicitu fotek ( ne mých :) ) , tak jsem zjistil, že z 27000 fotek jich je asi 3500 zbytečně duplicitních. ( Pokud by někoho zajímalo jak, tak pomocí md5deep a setřídění dat podle hashe )
A když jsem nad tím přemýšlel, tak mě napadlo, že s velkou pravděpodobností se stejným způsobem zálohuje zbytečně velké množství souborů i u klasických uživatelských záloh.
Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.
Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?
Díky za každou odpověď
-
ZFS - deduplicate
-
Já jdu cestou nejmenšího a zálohuji vše. Podle mne by to porovnávání podstatně prodloužilo dobu zálohování. Navíc kdyby nastal nejčernější scénář a všechny disky najednou selhali, tak pořád je větší naděje na obnovu, pokud soubor bude na disku několikrát, než jen jednou. Cena prostoru je dnes velice směšná a lidé pokládají za životně důležité kdejaké nesmyslné soubory. Tak jim to dopřejme.
-
souhlas, zalohuju vsecko, ani netridim. snad to roztridim v duchodu.
-
Tiez zalohujem bez selekcie duplicit, pre dolezitejsie veci do prace drzim starsie zalohy. Uz som nad podobnymi rieseniami rozmyslal, ale nahoda je ... a zrovna ked ten subor budem najviac potrebovat, tak tam nebude alebo bude poskodeny. Osobne nezalohujem uplne vsetky data, takze to moc priestoru nestoji a disky su lacne(relativne, mohli by byt viac:-) )
-
bud zfs, brtfs s dedupikaci, nebo treba https://code.google.com/p/fdupes/
-
http://backuppc.sourceforge.net/
-
Dokázal bych si představit řešení, kdy backup server by ukládal soubory pod názvem tvořeným hashem obsahu daného souboru a do databáze by se ukládaly informace o daném souboru ( vlastník, práva, cesta, originální název, atd. ) a klient by spočítal hash každého souboru, který by se měl zálohovat, a pokud by zjistil, že na serveru tam již soubor s tímto hashem je, tak by přenesl jen informace o souboru, jinak by přenesl navíc i obsah souboru.
Chtěl jsem se zeptat, jestli někdo nevíte o podobném ( již hotovém řešení ) ? Řešíte to vůbec nějak nebo jdete cestou nejmenšího odporu a zálohujete vše bez nějaké analýzy zálohovaných dat?
BackupPC :-) Tam je to vylepšené ještě o to, že pokud zálohujete více serverů, kde jsou ty samé soubory jako jinde, tak se ukládají pouze jednou. Stejně tak v historii záloh.
Nebo nějaký FS s deduplikací.
-
Hraju si ted s git-annex, taky moznost (i kdyz trochu vic technicka).
-
Nestacil by stary dobry rsync?
-
Nestacil by stary dobry rsync?
Asi potřebuji nakopnout, ale jak pomocí rsync vyřeším duplicitní soubory ( včetně situace, že je stejný obsah, ale jiný název ) ?
-
Nestacil by stary dobry rsync?
Asi potřebuji nakopnout, ale jak pomocí rsync vyřeším duplicitní soubory ( včetně situace, že je stejný obsah, ale jiný název ) ?
Na to pochopitelně rsync nestačí.
-
Díky za odpovědi všem
- ZFS - deduplicate - vypadá rozhodně zajímavě na první pohled, ale zdá se, že bude dost náročný na zdroje. V nějakém článku se dokonce píše, že považují 16GB paměti za minimum pro ZFS s deduplikací, což mi příjde dost :) Ale určitě zfs s deduplikací někdy vyzkouším
- Díky za tipy na BackupPC a git-annex
-
Díky za odpovědi všem
- ZFS - deduplicate - vypadá rozhodně zajímavě na první pohled, ale zdá se, že bude dost náročný na zdroje. V nějakém článku se dokonce píše, že považují 16GB paměti za minimum pro ZFS s deduplikací, což mi příjde dost :) Ale určitě zfs s deduplikací někdy vyzkouším
http://constantin.glez.de/blog/2011/07/zfs-dedupe-or-not-dedupe aby to nebolo 'mam 16GB a WTF?' ;)[/list]