Deduplikace na FS nebude fungovat moc dobře. Protože když mu někdo do souboru něco vloží, tak se to celý posune a bloky už identický nebudou.
Tak třeba týden, kdy v pondělí se změní zdroj:
2MB dat + změna 4kb + změna 4kb + změna 4kb + změna 4kb + změna 4kb + změna 4kb
Tj. úspora: 12 MB
Pak se ti posune offset:
2MB dat + změna 4kb + změna 4kb + změna 4kb + změna 4kb + změna 4kb + změna 4kb
A začínáš zase znova....takže buď v klidu,
deduplikace bude fungovat docela slušně.Pokud se to uprostřed mění zřídka, bude úspora ohromná.
Jen je potřeba uříznout hlavičku a zajistit, aby to začínalo vždy stejně - (zajistíš uříznutím hlavičky -
hlavičku řežeš proto, aby ti obsah začínal vždy stejně).
A navíc - to bude na úrovni FS transparentní, žádné balení a rozbalení, žádné skripty, můžeš to mít v jednom adresáři za dvacet let, nemusíš nic balit.
Příklad: 1x týdně se to celé změní:
Máš 52 týdnů * 2 MB = 104 MB ročně na tento soubor (adresář), který by jinak měl asi 750 MB.
Navíc, pokud se ti změní věta bez posunu - tomu by se dalo pomoct odebráním HTML dekorací a zarovnáním, tak z toho budeš mít třeba 10-20 MB za rok. Tak to klidně můžeš držet na SSD.
Problém mohou být ty PDF, ty bude těžší zpracovat - leda je převést na HTML, možná něčím jako
poppler-utils (neznám) Odebrat z toho dekorace a zase by to mohlo jít deduplikovat.