Fórum Root.cz

Ostatní => Odkladiště => Téma založeno: jane.d 23. 11. 2017, 22:51:06

Název: Kontrola integrity dat na disku
Přispěvatel: jane.d 23. 11. 2017, 22:51:06
Zdravím,

nastíním situaci: Řekněme, že mám na disku důležitá data. Samozřejmě pravidelně zálohuji na externí HDD. Pokud ale dojde ke poškození některých souboru, ke kterým nepřistupuji zrovna denně, nezjistím to. To znamená, že tyto soubory pak ještě mohu zazálohovat a nic nezjistím do té doby než je budu jednou potřebovat.

Šlo pouze o hypotézu. Nic takového se mi nestalo. Je vlastně možné, aby se data poškodila během uskladnění, když k nim zrovna nepřistupuji? O poškození souboru u ostatních uživatelů jsem něco četl - word soubor, který nelze otevřít nebo že v textovém souboru byl obsah nahrazen null znaky. Nemám důvod tomu nevěřit, jen nevím jak se to stalo - jestli při kopírování nebo tak. Něco jsem totiž četl o error correction coding.

Jedním řešením by bylo nasazení btrfs. Jestli jsem to dobře pochopil. Měl by v metadatech ukládat checksum souboru. Nicméně zatím ho nasazovat nechci... takže mě napadá vytvořit hash list a zkontrolovat ho před provedením zálohy. Trochu se to komplikuje tím, že musím zohledňovat soubory u kterých se změní mtime nebo změna jména.

Řešíte u sebe integritu dat - jestli ano, jak? Nebo si tu vymýšlím absolutní hovadiny? :D
Název: Re:kontrola integrity dat
Přispěvatel: rxgu 23. 11. 2017, 23:15:40
Tak o hovadinu rozhodně nejde, za sebe to neřeším nijak. Ale sám jsem zvědavý, co tady ostatní napíšou.
Název: Re:kontrola integrity dat
Přispěvatel: Jenda 23. 11. 2017, 23:25:56
Je vlastně možné, aby se data poškodila během uskladnění, když k nim zrovna nepřistupuji?

Ano, na disku se vytvoří vadný sektor a prostě jeden blok souboru nepůjde přečíst (disk vrátí chybu, takže o tom alespoň víš). Občas se to stává.

Další možnost poškození je silent data corruption, kdy disk vrátí jiná data a neřekne ti o tom. To se stává extrémně zřídka, ale u některých disků k tomu vlivem nějaké závady prostě dojde.

Další možnost pak je, že jsi zálohoval přes vadnou RAMku (vadná, rowhammer, …) a soubor se poškodil během přečtení z disku, přenosu po síti a zápisu na cílový disk.

Nejlepší je asi spočítat u všech souborů SHA256 a občas zkontrolovat. Další možností by bylo btrfs, ale tam byl minimálně na 4.7 bug, kdy scrub našel chyby v souborech, ale nenašel chyby v metadatech. Dále checksumy umí ZFS, s tím nemám žádné zkušenosti.
Název: Re:kontrola integrity dat
Přispěvatel: Kit 23. 11. 2017, 23:47:39
Jednou z možností je zálohovat soubory verzováním. Pokud jsou data shodná, šetří se místo na zálohovacím disku. Pokud jsou jiná, zálohují se jako nová verze. Pokud dojde k poškození některého ze souborů, obnoví se z vhodné verze.

Git se na tento způsob zálohování moc nehodí, ale například rdiff-backup by mohl být vhodným kandidátem.

V neposlední řadě tu jsou služby typu Dropbox či Mega.nz. Zálohují automaticky a staré verze souborů si drží asi měsíc, než je smažou. Nehodí se však na často měněné soubory.

Z placených služeb se dá využít např. Amazon S3.
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 23. 11. 2017, 23:54:13
Co takle pouzit stary dobry Tripwire s databazi na externim ulozisti ve dvou kopiich?
Název: Re:kontrola integrity dat
Přispěvatel: Miroslav Šilhavý 23. 11. 2017, 23:56:02
Řekněme, že mám na disku důležitá data. Samozřejmě pravidelně zálohuji na externí HDD. Pokud ale dojde ke poškození některých souboru, ke kterým nepřistupuji zrovna denně, nezjistím to. To znamená, že tyto soubory pak ještě mohu zazálohovat a nic nezjistím do té doby než je budu jednou potřebovat.

Integritu živých dat může zajišťovat filesystem, např. ZFS má checksumy na každý blok a lze to považovat za plus minus bezpečné řešení.

Ale co si myslím, že Vám chybí je archivace dat. Tedy, ne jen záloha, ale posloupnost záloh v čase. Nejvhodnějším médiem pro archivaci jsou pak pásky (LTO), nebo RDX disky.
Název: Re:kontrola integrity dat
Přispěvatel: Kit 24. 11. 2017, 00:47:05
Ale co si myslím, že Vám chybí je archivace dat. Tedy, ne jen záloha, ale posloupnost záloh v čase. Nejvhodnějším médiem pro archivaci jsou pak pásky (LTO), nebo RDX disky.

Myslím si, že pro domácí použití je to overkill a že DVD nebo BR poslouží také dobře.

Sada flešek se správným zálohovacím plánem takový úkol může zvládnout také.
Název: Re:kontrola integrity dat
Přispěvatel: Miroslav Šilhavý 24. 11. 2017, 00:50:17
Myslím si, že pro domácí použití je to overkill a že DVD nebo BR poslouží také dobře.
Sada flešek se správným zálohovacím plánem takový úkol může zvládnout také.

Souhlas.
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 24. 11. 2017, 01:13:26
Myslím si, že pro domácí použití je to overkill a že DVD nebo BR poslouží také dobře.

Pokud vam staci write only zalohy, tak ano.
Název: Re:kontrola integrity dat
Přispěvatel: Kit 24. 11. 2017, 01:31:45
Myslím si, že pro domácí použití je to overkill a že DVD nebo BR poslouží také dobře.

Pokud vam staci write only zalohy, tak ano.

Tvůj návrh domácí archivace je ještě hloupější, takže se nevytahuj.
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 24. 11. 2017, 01:54:34
Tvůj návrh domácí archivace je ještě hloupější, takže se nevytahuj.

Ktery navrh presne?
Název: Re:kontrola integrity dat
Přispěvatel: Kit 24. 11. 2017, 02:21:05
Tvůj návrh domácí archivace je ještě hloupější, takže se nevytahuj.

Ktery navrh presne?

Ten, který jsi napsal v tomhle vlákně.
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 24. 11. 2017, 11:02:53
Tvůj návrh domácí archivace je ještě hloupější, takže se nevytahuj.

Ktery navrh presne?

Ten, který jsi napsal v tomhle vlákně.

Aha. Ktery presne?
Název: Re:kontrola integrity dat
Přispěvatel: Kit 24. 11. 2017, 11:16:17
Tvůj návrh domácí archivace je ještě hloupější, takže se nevytahuj.

Ktery navrh presne?

Ten, který jsi napsal v tomhle vlákně.

Aha. Ktery presne?

Přesně ten, kde nedoporučuješ žádnou archivaci a když už, tak write-only, což je evidentní hloupost.
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 24. 11. 2017, 11:46:28
Přesně ten, kde nedoporučuješ žádnou archivaci a když už, tak write-only, což je evidentní hloupost.

Umis cist? Nikde nic takoveho nedoporucuji.
Název: Re:kontrola integrity dat
Přispěvatel: Kit 24. 11. 2017, 11:55:22
Přesně ten, kde nedoporučuješ žádnou archivaci a když už, tak write-only, což je evidentní hloupost.

Umis cist? Nikde nic takoveho nedoporucuji.

No právě. Nedoporučuješ žádnou archivaci, což je chyba.
Název: Re:kontrola integrity dat
Přispěvatel: Miroslav Šilhavý 24. 11. 2017, 12:02:39
Umis cist? Nikde nic takoveho nedoporucuji.

No to je ono, a ani jste nepochopil narážku a ještě jste se rozběhl hlavou proti zdi. Kouzelné. :)
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 24. 11. 2017, 12:12:21
Přesně ten, kde nedoporučuješ žádnou archivaci a když už, tak write-only, což je evidentní hloupost.

Umis cist? Nikde nic takoveho nedoporucuji.

No právě. Nedoporučuješ žádnou archivaci, což je chyba.

Jednak se zde nediskutuje o archivaci, jednak zaloha na vysokokapacitni vypalovaci media je obvykle stejne dobra, jako zaloha zadna.

Chapu, ze ty treba pri diskusi o porizeni nove mikrovlne trouby doporucis koupi litrove flasky kolinske vody, ale ja se drzel tematu, presneji receno jsem varoval pred pouzitim DVD a BR.
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 24. 11. 2017, 12:12:50
Umis cist? Nikde nic takoveho nedoporucuji.

No to je ono, a ani jste nepochopil narážku a ještě jste se rozběhl hlavou proti zdi. Kouzelné. :)

???
Název: Re:kontrola integrity dat
Přispěvatel: Kit 24. 11. 2017, 12:20:20
Jednak se zde nediskutuje o archivaci, jednak zaloha na vysokokapacitni vypalovaci media je obvykle stejne dobra, jako zaloha zadna.

Chapu, ze ty treba pri diskusi o porizeni nove mikrovlne trouby doporucis koupi litrove flasky kolinske vody, ale ja se drzel tematu, presneji receno jsem varoval pred pouzitim DVD a BR.

Diskuze je o zálohování, ze kterého se vyklubala i potřeba archivace. Nedoporučil jsi žádné zálohování a ani žádnou archivaci, což je velmi špatné řešení.
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 24. 11. 2017, 12:31:48
Diskuze je o zálohování, ze kterého se vyklubala i potřeba archivace. Nedoporučil jsi žádné zálohování a ani žádnou archivaci, což je velmi špatné řešení.

Diskuse je o kontrole integrity dat. Dovoluji si upozornit, ze integrita dat neni synonymem archivace a dokonce ani zalohovani.
Název: Re:kontrola integrity dat
Přispěvatel: Kit 24. 11. 2017, 12:40:46
Diskuze je o zálohování, ze kterého se vyklubala i potřeba archivace. Nedoporučil jsi žádné zálohování a ani žádnou archivaci, což je velmi špatné řešení.

Diskuse je o kontrole integrity dat. Dovoluji si upozornit, ze integrita dat neni synonymem archivace a dokonce ani zalohovani.

Dobrá, jak tedy kontroluješ integritu dat?
Název: Re:kontrola integrity dat
Přispěvatel: Jenda 24. 11. 2017, 13:50:14
ale například rdiff-backup by mohl být vhodným kandidátem.

V neposlední řadě tu jsou služby typu Dropbox či Mega.nz. Zálohují automaticky a staré verze souborů si drží asi měsíc, než je smažou. Nehodí se však na často měněné soubory.

Jmenované věci se řídí datem modifikace (možná to jde změnit v konfiguraci), nikoli obsahem. Změnu obsahu chybou hardwaru tak nepoznáš. A protože to deduplikuje, tak se chyba projeví ve všech (stejných) archivovaných kopiích.
Název: Re:Kontrola integrity dat na disku
Přispěvatel: jane.d 24. 11. 2017, 13:57:04
Rozjela se tu celkem zajímavá diskuze. I když se trochu odklonilo od původního tématu.

Jenda potvrdil, že může dojít k silent data corruption. V takovém případě by bylo třeba si vést databázi hashu všech souboru a před zálohou si je zkontrolovat. Případně, ještě po jejím provedení. K tomu bude třeba napsat nějaký script, protože manuálně se to nikomu dělat nechce.

Případně Jarda.P zmiňoval Tripwire. Trochu jsem to zkoumal a zjistil jsem, že existuje víc programu přímo na kontrolu integrity dat. Jen nevím jestli se úplně hodí pro desktop.

Zálohování verzováním jak někdo navrhoval... nevím jestli by to řešilo problém v případě té silent corruption. Ten program by podle mě prostě zazálohoval vadná data a na mě by pak jednou připadlo hledání v kdy byla data konzistentní.
Název: Re:kontrola integrity dat
Přispěvatel: JardaP . 24. 11. 2017, 14:34:08
Dobrá, jak tedy kontroluješ integritu dat?

Nekontroluju, nepotrebuju, nemam tak dulezita data. Navrhoval jsem Tripwire, jak jsi si mohl vsimnout.
Název: Re:Kontrola integrity dat na disku
Přispěvatel: Kit 24. 11. 2017, 14:36:14
Jenda potvrdil, že může dojít k silent data corruption. V takovém případě by bylo třeba si vést databázi hashu všech souboru a před zálohou si je zkontrolovat. Případně, ještě po jejím provedení. K tomu bude třeba napsat nějaký script, protože manuálně se to nikomu dělat nechce.

Zmíněný rdiff-backup má přepínač --compare-hash, který porovnává soubory podle jejich hashe.

Zálohovacích a archivačních médií je nutné mít víc a střídat je dle plánu.

Pokud bys chtěl někde ukládat hashe souborů, tak nejlépe asi v nějakém rozšířeném atributu. Příkazem find pak vyhledáš všechny soubory, které mají odlišný hash nebo ho vůbec nemají. Dalším příkazem find můžeš ty hashe aktualizovat.