Za mě doporučuji AWS S3 / deep archive. Používám to na vlastní zálohy (cca 250G) už cca 2 roky, od doby co jsem se naučil dělat s AWS v práci. Je to absurdně levné (momentálně platím měsíčně 0.97 kč), nejspíš asi nejlevnější co se dá sehnat. Commandline utility na to jsou přímo od AWS a S3 je protokol který dneska podporuje kde co.
Za sebe můžu říct, že jsem s tím maximálně spokojený, ale vím přesně co dělám. Je nutné taky říct, že to má to svoje specifika, hlavně co se týče poplatků:
1. Jak už někdo zmiňoval, cena za egress.
To znamená že platíš za stažení dat. Ta cena se liší podle regionu. Řádově to bude u jednotek terabajtů něco jako dva tisíce ($0.09 per GB 92$ -> 1 984,26 kč).
Osobně je mi tohle jedno, protože používám tiery záloh, a prvně to mám samozřejmě na PC, pak na externím disku, pak na rPI microserveru, a až pak v S3. A pokud by došlo k takové katastrofě, že přijdu o předchozí tiery, tak ty peníze za to prostě dám. Je to pro mě pojistka kde platím 12kč ročně a kdyby náhodou došlo k problémům, tak zaplatím pár tisíc navíc.
2. Chce si to správně nakonfigurovat bucket.
Musíš si sám nastavit policy že to padá do deep archive po dni (nebo okamžitě), a taky mít dostatečně random jméno, aby ti na to nikdo neposílal GET requesty, které sice zfailují, ale stejně za ně platíš (
How an empty S3 bucket can make your AWS bill explode). Podle dokumentace za to sice amazon přestal chtít peníze, ale nespoléhal bych na to:
Amazon S3 will no longer charge for several HTTP error codes.
Samozřejmě taky použij defaultní bucket policy že k tomu nemá přístup nikdo z venku. Boti to jinak najdou a nedoplatíš se.
Taky si nastav anomaly detection policy na costy. Tzn že ti přijde email když se najednou utratí víc než je normální. Kdybys tam třeba něco nechal válet v jiném tieru, nebo použil špatnou policy, nebo ti z toho něco tahalo data, nebo tak něco. Dobré o tom okamžitě vědět.
3. Nesyp tam hodně malých souborů.
Ideální je velká zašifrovaná záloha + větší delta soubory jednou za čas. U S3 platíš i za počty souborů a pokud bys tam nahrával spoustu malých, tak se to může prodražit.
4. Když to budeš chtít obnovit, tak rozhodně použij bulk restore.
Deep archive znamená že to cpou někam na sekundární storage a není k tomu normálně možný přístup okamžitě. Před tím než to můžeš stáhnout to musíš přesunout z deep archive zpět na standardní S3 tier. Bulk restore stojí nic, ostatní můžou stát ledvinu. Liší se to podle toho jak dlouho bude trvat než to obnoví. Bulk restore je nejpomalejší, ale zadarmo.
5. Nepoužívej EC2 ani nic dalšího.
Je to sice super co do featur, ale stojí to ledvinu (nebo dvě) a je velmi lehké utratit spoustu peněz.
6. Není to tak složité jak to vypadá.
Možná jsem to popsal jako hrozně překomplikované, reálně to naklikáš za pět minut a funguje to. Taky ta terminologie je trochu matoucí, ale reálně je to jednoduché:
- Bucket: Jakási složka v S3. Jména musí být globálně unikátní, vyber si něco dost náhodného. Třeba moje-nejlepsi-zaloha-28271190347.
- Key / object: Cesty v těch bucketech. Reálně může být key libovolný string, v praxi se typicky používají cesty jako v té složce. Třeba zalohy_pc/muj_dump.tar.zstd.gpg. Object jsou pak ty data samotná. Když to budeš chtít obnovit, tak prvně musíš provést restore z Deep archive na standard tier, k tomu vybereš ten bulk restore, počkáš den a můžeš to stáhnout.