Tyjo, fakt hezký a praktický téma, dík za něj!
Bohužel myslím, že když si jasně rozmyslíš, co vlastně přesně chceš řešit, dojdeš na to, že se stoprocentní jistotou to řešit nejde.
Když si to tak vezmeš:
1. ransomware ti může jakýkoliv soubor zašifrovat kdykoliv
2. "korektnost" všech možných typů souborů nejsi schopný zkontrolovat
...tak z toho máš závěr, že buď musíš přijmout omezení na maximální stáří souboru nebo na velikost záloh nebo omezit množství formátů, pro které tu garanci chceš, nebo omezit jistotu, s jakou víš, že formát je v pořádku.
Pokud nechceš omezit stáří, musíš mít historii všech souborů až zpátky k jejich vzniku (=> potenciálně obrovské nároky na úložiště záloh, imho ve většině případů prakticky těžko realizovatelné).
Tu jistotu o korektosti formátu můžeš snížit třeba tak, že na všechny soubory spustíš normální file (
http://man.he.net/?topic=file§ion=all), který ti pro velkou část z nich správně určí typ obsahu a zároveň asi není úplně pravděpodobný, že by soubor by ransomware soubor zašifroval a zároveň zachoval hlavičku.
Jinak taky bys měl snižovat objem záloh pomocí nějaké usecase-specific deduplikace: skoro každý rozumnější zálohovací nástroj umí několik úrovní záloh - např. Bareos má Full, Differential, Incremental, tar má --level. Soubory, které se nezměnily od poslední zálohy stejného nebo vyššího levelu se znovu nezálohují. Pak taky existují různé nástroje, které pro nezměněné soubory používají hardlinky. Když tohle správně použiješ, můžeš historii slušně natáhnou za nízkého zvýšení nákladů. Pořád ale bude nějak omezená - kapacita nabývá nekonečná.
...no a pokud bys do toho chtěl jít fakt hardcore, tak můžeš mít nekončnou kapacitu pomocí nějakého "doufejme, že to nikdy nebudu potřebovat číst" řešení typu Amazon Glacier.
Prostě žádný silver bullet mě na tenhle problém nenapadá...