Deduplikace záloh

maxlink

Deduplikace záloh
« kdy: 27. 03. 2017, 11:23:01 »
Ahoj, mam Linux server (Debian), pres 8TB HDD v diskovem poli, v noci se na nej pres NFS/Sambu lejou zalohy virtualnich masich, jsou to "bloby" od 50-300GB, existuje nastroj jak jak bych mohl ty data deduplikovat, protoze valna cas je porad stejna, je tam ext4, premyslel jsem o zfs, ale zase deduplikace chce hodne RAM, mam pouze 8GB aktualne, myslel jsem spise nejaky archivator/backup nastroj, ktery by to pres den prechroupal, zalohy bezi v noci cca 5hodin a pres den se stroj flaka. Diky za tip. Max.


fish

Re:Deduplikace záloh
« Odpověď #1 kdy: 27. 03. 2017, 11:47:55 »
Nestačil by pustit lokální rsync?

Re:Deduplikace záloh
« Odpověď #2 kdy: 27. 03. 2017, 14:11:12 »
Nemůžete dělat deduplikaci (pomocí hardlinků) obecně na libovolném systému a s libovolnými nástroji. Snadno se vám pak stane, že zjistíte duplicitu mezi dvěma soubory, nahradíte je hardlinkem – pak někdo jeden z těch souborů změní, a tím vám zároveň změní i ten druhý. Pokud tedy ten disk používáte jenom pro zálohy, pořád byste je musel dělat tak, že každý den vytvoříte komplet novou zálohu, a teprve po té uděláte deduplikaci – tj. nesměl byste zálohy přepisovat. Ale pokud používáte NFS/Sambu a ne rsync, zřejmě už to tak děláte dnes.

Proč nepoužijete btrfs?

MP

Re:Deduplikace záloh
« Odpověď #3 kdy: 27. 03. 2017, 14:37:40 »
To by me taky zajimalo, jak se resi deduplikace na urovni obrazu VM.

maxlink

Re:Deduplikace záloh
« Odpověď #4 kdy: 27. 03. 2017, 15:00:39 »
Nemůžete dělat deduplikaci (pomocí hardlinků) obecně na libovolném systému a s libovolnými nástroji. Snadno se vám pak stane, že zjistíte duplicitu mezi dvěma soubory, nahradíte je hardlinkem – pak někdo jeden z těch souborů změní, a tím vám zároveň změní i ten druhý. Pokud tedy ten disk používáte jenom pro zálohy, pořád byste je musel dělat tak, že každý den vytvoříte komplet novou zálohu, a teprve po té uděláte deduplikaci – tj. nesměl byste zálohy přepisovat. Ale pokud používáte NFS/Sambu a ne rsync, zřejmě už to tak děláte dnes.

Proč nepoužijete btrfs?

Mám klasický vmware, z něho v noci vypadne několik souboru, jako záloha VM, co soubor to v podstatě stroj, je to klasické ghettoVCB, vmware má přimountované NFS z backup serveru a sype se to přímo backup, protože ty image se dělají každou noc a jsou +- stejně veliké, tak je jasné, že se tam moc věcí nemění, proto se ptám, jestli je nějaká možnost jak ty stejné bloky v těch souborech (každé virtuální mašiny) uchovat jen jednou, klidně to protáhnu nějakým nástrojem, chtěl bych schovávat více záloh (více dní zpětně) i za cenu, že při obnově ze staršího budu muset "slejt" nějak zpět, rozumějte nemám možnost nic moc nikde snapshotovat (jen na úrovni vmware a to dělat ghetto), zfs/brtfs deduplikace online by byla fajn, ale co jsem pochopil, tak to docela žere zdroje (RAM a to jakože dost).

Narazil jsem na zbackup.org, asi to zkusím nemáte s tím někdo zkušenosti ? Max


Re:Deduplikace záloh
« Odpověď #5 kdy: 27. 03. 2017, 15:43:39 »
zfs/brtfs deduplikace online by byla fajn, ale co jsem pochopil, tak to docela žere zdroje (RAM a to jakože dost).
Takhle se bude chovat každá deduplikace – potřebujete mít nějaké kontrolní součty všech zapsaných bloků a umět v nich rychle vyhledávat. Aby to dávalo smysl, je potřeba je držet v RAM.

V případě btrfs nemusíte používat on-line deduplikaci, můžete porovnávat jen vybrané soubory (třeba novou a předchozí zálohu), čímž zdroje výrazně ušetříte. A dostanete tím prakticky to, co dělají zbackup.org nebo rdiff-backup, akorát to máte rovnou jako čitelné soubory na disku.

dustin

Re:Deduplikace záloh
« Odpověď #6 kdy: 27. 03. 2017, 16:45:51 »
Pokud deduplikaci potřebuješ, stačí přidat paměť. Je dnes docela levná.

j

Re:Deduplikace záloh
« Odpověď #7 kdy: 27. 03. 2017, 16:52:37 »
...
Jasne ze na to sou nastroje ... treba ty fs ktery to umej ... a aby to bezelo v nejakym pouzitelnym casovym horizontu ... potrebujes na to ... tu RAM. Hodne ram. Uvedom si, ze je treba vzit kazdej jeden blok a porovnat ho se vsema ostatnima ... a aby se tohle nemuselo delat, tak si deduplikator bloky/soubory ... ohashuje, a drzi si v ram ty hashe.

Na btrfs to pak samo muzes pustit i bez ty ramky ... jen to v zavislosti na objemu pobezi treba i par dnu.

Nebo to udelas tak, ze budes "zalohu" prepisovat ... a z ni udelas snap. Ten bude drzet prave jen zmeny ... ovsem to neresi deduplikaci v ramci kompletnich zaloh ale jen v ramci jednotlivych souboru.

dustin

Re:Deduplikace záloh
« Odpověď #8 kdy: 27. 03. 2017, 17:50:37 »
V ZFS lze dedup table ukládat i na L2ARC cache na SSD. To by mohlo být nejlevnější řešení.

Osobně bych za 1200 Euro pořídil repas server se > 64GB RAM DDR3, ale ne každému to vyhovuje. Např. http://www.ebay.de/itm/Dell-PowerEdge-R720-2x-Xeon-Six-Core-E5-2640-2-5GHz-80GB-RAID-PERC-H310-Server-/292061947252 mínus 20% DE DPH a určitě by se s nimi dala domluvit rozumná doprava.

Re:Deduplikace záloh
« Odpověď #9 kdy: 28. 03. 2017, 10:29:19 »
Mám dobré zkušenosti z BorgBackup https://borgbackup.readthedocs.io
Deduplikace je rychlá.
Spotřeba paměti se dá optimalizovat nastavením chunk paramatrů http://borgbackup.readthedocs.io/en/stable/internals.html

robotron

Re:Deduplikace záloh
« Odpověď #10 kdy: 28. 03. 2017, 11:11:47 »
(..) A dostanete tím prakticky to, co dělají zbackup.org nebo rdiff-backup, akorát to máte rovnou jako čitelné soubory na disku.

Moment -- myslel jsem, ze u rdiff-backup mam zalohu taky rovnou jako citelne soubory na disku. Pletu se? Hodlam na to prejit.

maxlink

Re:Deduplikace záloh
« Odpověď #11 kdy: 28. 03. 2017, 12:17:07 »
(..) A dostanete tím prakticky to, co dělají zbackup.org nebo rdiff-backup, akorát to máte rovnou jako čitelné soubory na disku.

Moment -- myslel jsem, ze u rdiff-backup mam zalohu taky rovnou jako citelne soubory na disku. Pletu se? Hodlam na to prejit.

Jde to namountovat pres FUSE (rdiff-backup-fs). Max

Re:Deduplikace záloh
« Odpověď #12 kdy: 28. 03. 2017, 13:22:42 »
Moment -- myslel jsem, ze u rdiff-backup mam zalohu taky rovnou jako citelne soubory na disku. Pletu se? Hodlam na to prejit.
Pletete se, v čitelné podobě je na disku jenom poslední záloha, starší se musí „zrekonstruovat“ z rozdílových souborů. Pomocí FUSE se ta rekonstrukce dá schovat za běžné rozhraní souborového systému, ale na pozadí pořád bude muset ovladač tu rekonstrukci provést.

Doporučuju k přečtení Záloha dat pomocí rdiff-backup.

maxlink

Re:Deduplikace záloh
« Odpověď #13 kdy: 28. 03. 2017, 16:43:53 »
Je to tam "hoši". :-).
Přemigroval jsem na btrfs a nasadil "offline" deduplikaci přes duperemove, to mi stačí spustit nad ránem až doběhnout zálohy, duperemove najde duplicitní bloky submitne je do jádra k deduplikaci, to vypadá dobře. Max.

trubicoid2

Re:Deduplikace záloh
« Odpověď #14 kdy: 28. 03. 2017, 17:20:17 »
pak řekni, jak to funguje
nad obrovskýma datama mi to zatuhuje jeden stroj, ale o data jsem nepřišel  ;)

a nevýhoda btrfs je, že po deduplikaci je potřeba místo ještě skutečně uvolnit, t.j.

Kód: [Vybrat]
btrfs fi df /mnt
btrfs balance start -musage=99 /mnt
btrfs balance start -dusage=99 /mnt
btrfs fi df /mnt

asi pouštět z cronu, asi ne každý den? jednou týdně?