Tj, to bude deduplikace jak noha ... nebo jako u vmware. Kolik asi tak najdes identickych 128k bloku vs 4k.
To se mýlíte. V praxi jsou identické buďto celé soubory, nebo se neshodují vůbec. Prakticky se nezmění deduplikační poměr, náhoda, že by ve dvou souvislých řadách dat byly shodné jen vybrané bloky, je extrémně nízká.
Deduplikace se rozhodně nehodí na většinu dat, jsou to jen speciální případy.
ZFS používá deduplikaci za letu, ta je náročná na RAM a výkon. Např. NTFS používá deduplikaci, kterou provádí v nastavených intervalech (např. 1-2x denně), lze vyloučit určité typy souborů, nastavit deduplikaci na souborech starších X dní (nemá smysl ji dělat na často měnících se souborech) a provádí se nad 4k nebo 64k blocích.
Uživatel si pak musí spočítat cenu prostoru dat, cenu RAM, cenu za umístění HW (např. v racku) a odhadovaný poměr, aby se mohl rozhodnout, jestli deduplikaci zavést.
U ZFS se vyplatí přemýšlet, na kterých datasetech deup povolíte, a na kterých ne, a rozlišit, která data kam ukládáte. U NTFS máte zase jiné možnosti, ale efekt je zpožděný.
Jinak VM se zálohují pomocí technologie označování změněných bloků. Veeam Backup podporuje tzv. dedup-friendly komrpesi, kdy komprimuje zarovnaně na bloky, aby stejně zkomprimovaná data zvýšila šanci na deduplikaci. Kombinací těchto technologií zálohujete velmi lehce a s poměrně rozumnou datovou náročností.