Souborový systém pro dlouhodobou archivaci

Souborový systém pro dlouhodobou archivaci
« kdy: 19. 04. 2026, 16:57:08 »
Jaký FS byste použili pro dlouhodobou archivaci a proč? Disk bych chtěl uchovat po dobu životnosti a po naplnění by se na něj třeba 20 dalších let nezapisovalo. Neřeším teď redundance, jen který souborový systém je pro tento účel nejvhodnější.

AI radí buď ZFS nebo BTRFS kvůli tomu, že detekují bitrot, ale ZFS není příliš rozšířený a BTRFS ještě není odladěný a za 20 let už může mít jinou podobu pokud nebude zapomenutý úplně. Navíc je otázka efektivity.


Re:Jaký FS použít pro dlouhodobou archivaci?
« Odpověď #1 kdy: 19. 04. 2026, 17:35:38 »
jak zfs neni rozsireny?

rmrf

  • ***
  • 136
    • Zobrazit profil
    • E-mail
Re:Jaký FS použít pro dlouhodobou archivaci?
« Odpověď #2 kdy: 19. 04. 2026, 17:51:59 »

Pokud to těch 20 let vydrží ten disk, tak je to snad celkem jedno, ne? Ale ono to s tou výdrží může být celkem dost velký problém. Buď se disk bude celou dobu točit a pak velmi pravděpodobně fyzicky nevydrží. Nebo bude v šuplíku a za 20 let se vůbec neroztočí. A nebo, a to nejpravděpodoněji, ho za 20 let nebude k čemu připojit, protože se změní standardy.

Ale ten souborový systém by měl mít také nějakou interní kontrolu toho, že data na něm jsou korektní. A bylo by dost otravné za 20 let zjistit, že máš sice funkční disk i funkční souborový systém, ale bohužel diskem proletěly nějaké částice, které změnily data zrovna tam, kde tě zajímají, bylo by docela vhodné, mít tam něco, co takové chyby dokáže také odstranit. Protože jinak taková funkce bude muset být přímo v těch uložených datech. Něco jako když RAR ukládá data navíc k tomuto účelu.

A nechápu co se ti nazdá na ZFS a BTRFS. Filesystémy jsou rozšířené oba dost a právě některé z výše uvedených problémů řeší.

Re:Jaký FS použít pro dlouhodobou archivaci?
« Odpověď #3 kdy: 19. 04. 2026, 18:49:18 »
Návrh:
Citace
tar -cf - /...//adresar | zstd -19 -o zaloha.tar.zst
par2 create -r30 zaloha.tar.zst
cp archiv.tar.zst /mnt/JináPartition nebo jinýDisk && sha256sum  zaloha.tar.zst /mnt/JináPartition/  zaloha.tar.zst

Teoreticky zvládne 30% poškození, dvě repliky jsou spolehlivější.
Druhá replika stačí chráněná pouze sha, přepočítání PAR2 trvá déle, pro ověření integrity to je dostatečné.
Šifrování se musí provést před PAR, tato informace někoho stála 50 tisíc.
« Poslední změna: 19. 04. 2026, 18:54:37 od JenBob »

Re:Jaký FS použít pro dlouhodobou archivaci?
« Odpověď #4 kdy: 19. 04. 2026, 21:46:34 »
Podle mě je dost dobře možné, že po 20 letech disk nebude funkční, také si to říkám. U SSD jak to je nevím. Když bude v šuplíku, možná se fakt po letech neroztočí a když poběží, tak také za dlouhou dobu odejde. A ona i ta spotřeba je znát. A to mohu podotknout, že jsem na rotačním disku v notebooku najel 77 000 hodin (po většinou běžel skript). Disk stále fungující, ale dnes už pro rotační disk 2.5 palce nezajímavá kapacita 0.5 TB.

Spíše bych čas od času data přehrál na novější disk pro archivaci, může být i jetej. Důkežitá data bych zálohoval na optická média (nejlépe speciální sklo-keramická). Tam při správném skladování ta životnost je. Ale na čem si je za určitou dobu přehrajeme ?


Wasper

  • ****
  • 256
    • Zobrazit profil
    • E-mail
Re:Jaký FS použít pro dlouhodobou archivaci?
« Odpověď #5 kdy: 19. 04. 2026, 23:01:18 »
Podle mě je dost dobře možné, že po 20 letech disk nebude funkční, také si to říkám. U SSD jak to je nevím.
SSD chce jednou za X malo mesicu zapnout na elektriku, jinak data ztraci. Referenci nedam, ale probiralo se to tu +- loni, predpokladam ze to pujde vyhledat.

Filesystem neco hodne stabilniho, pro takovou dobu (u mensich fajlu <2GB) bych sel do klasickeho iso9660 (pripadne s rr i joliet), u vetsich asi UDF (tam je limit tusim 200GB podle manu) + sha384sum vseho. zfs/btrfs pokud to ma byt citelne (a tim myslim vcetne sw supportu po 20+ letech stareho on-disk formatu) bych fakt neriskoval, za vyhodu checksumu to asi fakt nestoji (pokud si "sedne", tak by byl mozna vhodny i nedavno reseny filesystem pro kosmicke sondy, ale na to je mooc brzo).

Re:Souborový systém pro dlouhodobou archivaci
« Odpověď #6 kdy: 20. 04. 2026, 01:30:12 »
Zkus zjistit informace jak probíhá zálohování v knihovnách.
Myslím tedy ty centrální (hlavní) které digitalizují obsah pro dlouhodobou archivaci.

Je to velmi drahé, je to velmi časově náročné a je to soustavná činnost. A pořád dokola.

Zjednodušeně.
1. vezmeš obsah a ten vypálíš na CD (redundance budu přeskakovat)
2. za/každé 2 roky kontroluješ čitelnost
3. za 6 let uděláš zálohu na DVD (prostě přišlo novější médium)
4. za/každé 2 roky kontroluješ čitelnost (resp. upravíš dobu dle typu média)
5. za 6 let uděláš zálohu na BR (nové médium)
6. atakdále

Samozřejmě máš sklad plný záložních DVD/BR mechanik.
To jsem použil jako příklad.

Ale jinak se bude zálohovat na LTO WORM média, skladované v ideálních podmínkách kdy mají životnost 15-30 let.

Zálohování na pevné disky je nesmysl. Dlouhodobě nefunkční, poruchové.
Používej BR média ty mají 25GB při ceně asi 18Kč/ks.

Problém s mechanikami zůstává, ale jsou USB, takže je velká pravděpodobnost že je za 10 let dokážeš zapojit.

A jestli chceš mít ještě něco trvalejšího tak se nauč runové písmo a začni tesat do kamene.
Rosettská deska je z období staroegyptské doby. Tam je to velmi dobře vyřešeno (pouhou šťastnou náhodou) použitím tří jazyků, kdy dva jazyky nezanikly, a třetí tímto mohl být objeven a slouží jako klíč pro další ještě starší desky.

Jestli máš fotky tak je doporučuji vytisknout na papír. Budou zajímat tebe, pak tvé děti, možná ještě nějaké vnouče, a pravnoučata to nechají spálit jako veteš. A videa vypal na DVD/BD.

Chtěl bych znát člověka který vytvořil 25GB data bez multimédií.

Osobně za 30 let profesního života nemám žádné data starší než 5 let které bych potřeboval.
Tedy vyjma dat z ERP systému kde jsou data o mzdách atd.

Teď jsem dohledával rok 2009, ale stejně to mám na papíře a z toho šanonu jsem to vzal a trvalo to max. 30 minut vč. skenu všech 12 měsíců, protože sociálka nemá příslušné ELDP.

Jinak životnost disku s Heliem je údajně 8 let.
WD má disk s kapacitou až 12TB bez helia - Ultrastar DC HA340. Dnešní cena je tisícovka za terabajt.
Souborový systém bych až tak neřešil, zvolil bych NTFS. Microsoft určitě v té době bude existovat. A jsou dostupné nástroje na opravu dat.

Ale možná bych šel do menších kapacit aby se nepoužíval zápis HAMR atd. Tam budou data nejspíše dost ovlivněna dlouhodobým působením magnetickým polem Země - prostě přirozená degradace.

Re:Souborový systém pro dlouhodobou archivaci
« Odpověď #7 kdy: 20. 04. 2026, 05:20:40 »
Ve firmách (vč. malých s.r.o.) se např. účetnictví musí archivovat 10 let. A doma si lze představit zálohu fotek/videí z digi foťáků/kamer a mobilů, takže těch 20 let není zase tak dlouhá doba (a bude se už jenom prodlužovat). Nicméně to lze vyřešit třeba dvěma dvoudiskovými NAS, ideálně každý na jiném místě. Osobně to takto provozuji přes 15 let a max. v NAS vyměním vadný HDD za jiný, resp. čas od času dám HDD větší. Jinak moje NASy se pro účely zálohy fotek/videí zapínají automaticky jednou týdně na pár hodin (každý NAS v jiném čase), v té době provede záloha (z mobilů automatická přes FolderSync - a ostatní, co případně potřebuji, nakopíruji ručně) a pak zase samy vypnou, takže ani provozní doba disků v NASech není nijak závratná. Pochopitelně toto řešení nemusí každému vyhovovat, je to jenom inspirace...

Re:Souborový systém pro dlouhodobou archivaci
« Odpověď #8 kdy: 20. 04. 2026, 08:09:56 »
BTRFS není odladěný? Proč ho teda většina komerčních NASů nabízí už já nevim 15+ let?
ZFS není rozšířený? Ono je to spíš tak, že v malých (SOHO) instalacích nedává skoro v žádným nasazení smysl, takže se v nich nepoužívá, takže s ním málokdo přijde do styku, pokud nedělá na větších systémech nebo nemá homelab, kde se s ním chce seznamáit.
Nepůjde připojit ... to se dneska řeší tak, že ten disk se nesilážuje "jen tak nahatej", ale buď v USB boxu, nebo pokud je disků "značný počet" (řekněme 5+), pořídí se SATA2USB dokovací stanice. Protože je celkem slušná jistota, že USB nás všechny přežije. Pokud archivuješ na optický disky, dává smysl koupit dvě nebo tři mechaniky, všechny přezkoušet, jednu používat a zbylý dvě zavakuovat a zavařit do fólie a uložit do trezoru u primární a u vzdálený kopie.

FS: dneska už bych do UDF u nově řešený archivace asi nešel, AFAIK je deprecated a kdoví kdy jeho podpora ze systémů vypadne. Na druhou stranu asi nebude problém si na rozbalení dat vyinstalovat virtuála, co to bude umět přečíst. Dokonce i pod woknama bych (při prioritě nákladů) šel cestou Win+WSL2+tar a na samotným nosiči ext4 nebo btrfs (což ale AFAIK na ARMovým procesoru ani nepřečteš). Pokud víš, že u woken zůstaneš, nebál bych se NTFS, ale optický média bych použil v pořadí DVD-RAM (už je velkej problém sehnat), DVD+/-RW, DataTresor, a při velkých nárocích na kapacitu BD DataTresor.

A co se týče ochrany dat proti poškození, tak na doma je asi nejlevnější je při archivaci prohnat utilitou, která spočítá kontrolní součty a opravný kódy, a ty se uloží společně s daty a po uložení zkontrolují proti dosud existující kopii ve zdroji, a ideálně se to celý rovnou uloží a zkontroluje do DVOU nebo víc cílů. Tím šance, že o data přijdeš kvůli jejich fyzikální degradaci, klesá v podstatě na nulu.
A možnost, že se disky časem neroztočí nebo je nebude k čemu připojit, se řeší tak, že se data periodicky přenáší na nový nosiče; samozřejmě s kontrolou integrity.
Ochrana proti zničení / krádeži nosičů se řeší jednak jejich adekvátním uložením (trezor), tak off-site kopií v geograficky oddělený lokalitě. Není velká šance, že ve stejnou chvíli narazí dvě letadla plný paliva do dvou budov téhož vlastníka, to se v celé dokumentované historii zatím stalo jen jednou. A pokud nastane něco jako výbuch supervulkánu, budeme všichni mít úplně jiný starosti než koukat na 30 let starý rodinný fotky z Chorvatska nebo kontrolovat účetnictví.
« Poslední změna: 20. 04. 2026, 08:18:02 od Marek Staněk »

Re:Souborový systém pro dlouhodobou archivaci
« Odpověď #9 kdy: 21. 04. 2026, 12:27:35 »
Pokud můžu přispět svou do mlýna, tak HW bych vůbec neřešil.
Nepočítám s tím, že bych něco uložil a snažil se to po dvaceti letech přečíst. Radši budu každé tři až pět let rotovat disky, např. koupit dva nové disky do btrfs raid1 na běžné zálohy a odkladiště do NASky, použité disky přesunout na cold storage, kam to budu třeba jednou měsíčně posílat po ro snapshotech btrfs send/receive.
pro archivaci opravdu neměnných dat bych použil místo tar, zstd, par2, jak tu někdo psal, spíše squashfs a par2 kvůli možnosti kdykoli mountnout a přečíst.

Re:Jaký FS použít pro dlouhodobou archivaci?
« Odpověď #10 kdy: 21. 04. 2026, 14:46:43 »
... A nebo, a to nejpravděpodoněji, ho za 20 let nebude k čemu připojit, protože se změní standardy.

Vzhledem k tomu, že USB - PATA adaptér pro konektor z roku 1986 (a používaný cca do 2005) stojí na Allegru tak dvě stovky, tak bych o toto strach neměl. A pravděpodobně bude stát dvě stovky i za dalších dvacet let.
Teď zrovna doma zálohuji VHS kazety a to je formát z roku 1976.

Re:Souborový systém pro dlouhodobou archivaci
« Odpověď #11 kdy: 21. 04. 2026, 15:31:51 »
nenapsal jsi důležitou věc, jaká data a kolik jich je.

Poskytuji podobná řešení na klíč komerčně. Jako entry level mám systém postavený nad sqlite, kontrola checksumu a integrity (crc32 pro pages plus dbhash), velké množství fyzických nosičů, kde data mohou sedět. Pro export na pásky pak nabízím i parquet formát, ten má crc32 pro jednotlivé pages, lze validovat před čtení. Kryptografické podpisy ukládám do extra sloupců/tabulek a případně se přilepují do kontejneru na výstupu, pokud umožňuje. Tohle třeba používá jeden klient, má tam 20 TB dat, přes milion fyzických souborů (skeny, pdf, word dokumenty atd.), zákonná archivace na 10 let. Kritický systém. Výhoda je, malá code base, validovatelné, auditovatelné, přenositelné mezi systémy, provoz a správě se dá oddělit od aplikace. Data se kontinuálně čtou a ověřují, každý měsíc se přečte a zvaliduje vše. Primárně na diskách, sekundárně na páskách.

Pak tady mám vybudovaný tech stack nad freeBSD a zfs, to už je spíše určený jako real-time dokument uložiště s možností dlouhodobé archivace a replikace.

Jako externí médium na uložení do zásuvky není USB naprosto vhodný, USB (či obecně NAND paměť je vhodné používat pouze pokud je online, ve více kusech a můžeš jí kontrolovat a případně vyřadit a zreplikovat jinám). Na uložení du "šuplíku" jsou pořád pásky nebo CD/DVD (speciální na dlouhodobou archivaci) nejvhodnější. Nebo mít několik fyzických serverů s disky a nonstop v provozu (kvůli ložiskům). V podstatě takhle 20 let udržuji několik řešení ke spokojenosti všech.


Re:Souborový systém pro dlouhodobou archivaci
« Odpověď #12 kdy: Dnes v 11:01:55 »
Je to vec media a filesystemu dve rozne veci. Typicke SSD NAND media su najhorsie na dlhodobe ulozenie ale aj na ebzne pouzvanie nahly odchod mzoe byt horsi ako u HDD (nie konzumense SATA). Vynimka je intel optane ktore pouziva uplne iny typ buniek 3D Xpoint a priamu adresaciu ziadny garbage collection a ine barle. Bunky ich stav sa meni fazovo je to skor obdoba ale velmi sofistikovana k mediam ako su CD/DVD ale s kozmickou pristupovou dobou. Ma spickovu nizku pristupovu dobu a hlavne vyrovnanu. Neoslnuje papierovymi parametrami mamximalnych prenosovych rychlosti ale ma nieco co unika vacsine pouzivatelov tak, ze aj keby sa to valalo po zemi nik po tom nesiahne. Ta tehnologia je vyhadzovana z enterprise prostredia lebo nie je robena na masove pouzvanie kam smeruju aj datcentra. Radsej sa pouzije aj v datacentrach velka redunndacia na kvantitu a horsie typy pamati nez toto.

ZFS je jedny system ktory ako volne dostupny standard riesi uplne vsetko v cykle spravy dat. Prerdstava ze sa tazko nasadzuje je zauzity mytus. So ZFS Boot Menu to moze bezat na komkolvek pocitaci a absolutne sa zjednodusi aj jeho zakladna sprava. Ziadny GRUB ani praticie a okamzita moznost vyuzivat valstnosti fislesytemu a profesionalnej sravy dat vartane snapshotov bez toho, aby ten poctac musel mat status NAS uloziska. ZFS bura hranice medzi NAS a tym co sa zan nepovazuje. Umoznuje decentralizaciu a dosahnut lokalne to najlpesie co existuje ako bezne dostupne. So ZFS aj na mini pocitaci sa uz neriesi napriklad v pripade zalohovania a podobnych uloh suborovy system po sieti a jeho monotvanie ale send - receive takze napriklad distribucia dat na steroidoch nielen z NAS ale akehkolvek uzlu v sieti.

Re:Jaký FS použít pro dlouhodobou archivaci?
« Odpověď #13 kdy: Dnes v 12:07:26 »
Šifrování se musí provést před PAR, tato informace někoho stála 50 tisíc.

Dobrá poznámka. Na druhou stranu, pokud to někdo provedl naopak, v některých případech by to mělo jít rekonstruovat i tak. Jen to bude znamenat větší úsilí. Pokud byla použita proudová šifra (kam patří i proudové módy blokových šifer, třeba AES-CTR) a je v pořádku hlavička (zejména IV/nonce), mělo by to jít. Druhá věc je ochrana proti modifikaci (MAC či podpis), ale pokud není poškozená, tak i to by mělo být řešitelné. Jen ne úplně standardní cestou.

Re:Souborový systém pro dlouhodobou archivaci
« Odpověď #14 kdy: Dnes v 13:46:46 »
zaujal ma tu prispevok ktory rozdeluje pracu s datami na real time a archivacnu v zmysle ze zfs je skor pre real time a rozne media cd/dvd su na dlhodbe ukladanie so samostatne riesenymi checksum a vlastnou aplikaciu aj databazou pre ten ucel a asi aj ine ucely, v com vidm medzi real time a dlhodbym ukladanim jediny rozdiel je jedine precizcnejsia logicka organzoacia dat a aj napr. snapshotov ale nie to na com tie data su a ci je to na servri alebo dvd

ZFS ma celu matemaitku - archivacne a kontrolne aplikacie v sebe neptorebuje databazu vsetko je prepojene v jeho mozgu priamo k blokom dat ktre sa spravuju. Metadata priamo ukazuju na subory kratsia cesta uz nie je, a mozog moze byt na samostatnom VDEV  a praveze ak to nie su stovky CD ale len 2x20TB disky tak sa cela fyzicka organizacia uplne scvrkla, ma to len vyhody. Jedine co zostava je ta logicka sprava a clenenie dat organizacia, nie je tam rozdiel, real time je uz aj archivom pokial ide o technicku stranku ziadny dlhodoby archvi z real time nereba uz budovat on uz nim je po technickej stranke dokonaly viac ako real time uz neexistyuje. Uz to len zrkadlit na dalsi stroj ktory je zalozny, mozog ZFS je tak rychly ze to je jedine miesto kde sa riesi specialna pamat a zarucene to bude ryhclejsie ako riesit databazu pretoze zfs je stavane prave na to, on ju nepotrebuje, ostatne su disky ako spotrebak podobne ako cd/dvd