Jak správně zálohovat data okolo 20 GiB

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #135 kdy: 17. 10. 2017, 08:16:38 »
https://www.wdc.com/content/dam/wdc/website/downloadable_assets/eng/spec_data_sheet/2879-800044.pdf

Nechcem vam skakat do debaty, ale technicka specifikacia WD, uvadza parameter "Non recoverable reads error per bit" cize teoreticky (a zrejme aj prekticky) moze nastat, ze zdravy disk vrati chybne data.


datadoclanku

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #136 kdy: 17. 10. 2017, 21:24:23 »
Nejvic se bojim, aby nedoslo k zablokovani celeho TC kontejneru tim, ze se pozkodi jeden bajt na "vstupni brane" To by byl nejhorsi scenar a ztrata vsech dat. Je neco takoveho mozneho ?

To nevim, viz predchozi nekonecna diskuse o spolehlivosti disku. Ale mel byste se postarat o to, aby vas takova eventualita nerozhodila: https://www.neowin.net/forum/topic/984006-guide-backup-truecrypt-disk-header/ Mozna si vygooglujte novejsi verzi, jestli se nahodou neco nezmenilo.

To je diskuze o spolehlivosti HDD a cteni dat na nich, jak moc je chyba pravdepodobna. Ale jak moc by musel byt poskozen TC kontejner, aby nesel otevrit vubec (jestli staci jeden bit), tot otazka a nejhorsi scenar ztraty vsech dat.

Kdyz bude chyba v nejakym souboru, dost zalezi kde, a odtud rozsah skod. Nejhorsi je  to u klicu, nebo archivu s kody, databazemi.

Neni od veci mitvic verzi dozadu a pak je moznost porovnat checksum u souboru se stejnou datumovkou v ruznych verzich kontejneru.

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #137 kdy: 17. 10. 2017, 21:35:26 »
To je diskuze o spolehlivosti HDD a cteni dat na nich, jak moc je chyba pravdepodobna. Ale jak moc by musel byt poskozen TC kontejner, aby nesel otevrit vubec (jestli staci jeden bit), tot otazka a nejhorsi scenar ztraty vsech dat.

Čistě teoreticky by nemělo dojít k větší ztrátě dat, než konkrétního poškozeného bloku kontejneru. Pokud se v něm poškodí filesystém, pak na odšifrovaném containeru musejí proběhnout stejné záchranné operace, jako kdyby se jednalo o běžný disk. V tom se už rizika TC neliší. Jinou otázkou však je, jestli si s takovým poškozením dokážete poradit sám, nebo se budete muset obrátit na specializovanou firmu. Ale to je opět oddělená otázka pro samotné recovery TC containeru a oddělená pro filesystem.

spacek

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #138 kdy: 17. 10. 2017, 22:00:44 »
Nějak přestávám rozumět, co furt řešíte.
1. otevřu originální TC kontejner. Jde přečíst? Ano, jdi na 2. Ne - jdu pro zálohu.
2. vezmu médium, uložím na něj ten tvůj TC kontejner. Vygeneruju jeho hash.
3. z čerstvě vytvořené kopie na médiu přečtu TC kontejner. Vygeneruju jeho hash.
4. porovnám oba hashe. Sedí? Ano, jdi na 5. Ne poprvé - jdi na 3. Ne po více než poprvé, jdi na 2.
5. Cvičně otevřu přečtený TC kontejner. Jde otevřít? Ano - vezmi další médium a jdi na 2. Ne - hashe ale sedí, něco tu smrdí...
Opakuj tolikrát, kolik chceš mít záložních/archivních kopií. Proč řešíte stupidity na úrovni fw různého hw, které nemáte šanci ovlivnit (vyjma co možná nejvíce ECC článků v řetězu...)?

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #139 kdy: 17. 10. 2017, 22:17:34 »
1. otevřu originální TC kontejner. Jde přečíst? Ano, jdi na 2. Ne - jdu pro zálohu.
Pro TC kontejner platí to samé, jako pro 7zip archív, pevný disk, DVD nebo soubor v cloudu – to, že jde přečíst, není záruka toho, že se čtou správná data.


spacek

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #140 kdy: 17. 10. 2017, 22:56:17 »
1. otevřu originální TC kontejner. Jde přečíst? Ano, jdi na 2. Ne - jdu pro zálohu.
Pro TC kontejner platí to samé, jako pro 7zip archív, pevný disk, DVD nebo soubor v cloudu – to, že jde přečíst, není záruka toho, že se čtou správná data.
... pokud do něj někdo šahal přede mnou, tak jistotu opravdu nemám. Ale to tazatel neřeší.
Vždyť i ten blbej bitcoin na ten haněnej fw v hw spoléhá. Banky jakbysmet, armáda taktéž.
Troufám si tvrdit, že tazatel se zde již nic konstruktivního k jeho problému (vyřešení) nedozví.

PJ

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #141 kdy: 18. 10. 2017, 00:02:38 »
Opakuj tolikrát, kolik chceš mít záložních/archivních kopií. Proč řešíte stupidity na úrovni fw různého hw, které nemáte šanci ovlivnit (vyjma co možná nejvíce ECC článků v řetězu...)?
Mas sancu ich ovplyvnit aj bez ECC. Staci hash generovat z ineho PC po odpojeni a zapojeni kontrolovaneho disku. Iny PC obmedzi systematicke chyby na urovni driverov a FW, restart disku s istotou zmaze cache.

Hashe a ich kontrolu nepotrebujes ked veris, ze sa to nemoze stat.

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #142 kdy: 18. 10. 2017, 07:09:21 »
... pokud do něj někdo šahal přede mnou, tak jistotu opravdu nemám. Ale to tazatel neřeší.
Ne, nemusel na to nikdo před vámi sahat – prostě může dojít k chybě. A tazatel to právě řeší, explicitně uváděl, že chce detekovat i změnu jediného bitu.

Vždyť i ten blbej bitcoin na ten haněnej fw v hw spoléhá. Banky jakbysmet, armáda taktéž.
Nikdo tu FW ani HW nehaní, to, že HW může selhat, je normální a počítá se s tím. Banky ani armáda samozřejmě nespoléhají na to, že hardware nemůže selhat. Právě naopak, dělají opatření proto, aby je selhání hardwaru neohrozilo – například tak, že data ukládají v několika kopiích.

spacek

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #143 kdy: 18. 10. 2017, 07:30:10 »
... pokud do něj někdo šahal přede mnou, tak jistotu opravdu nemám. Ale to tazatel neřeší.
Ne, nemusel na to nikdo před vámi sahat – prostě může dojít k chybě. A tazatel to právě řeší, explicitně uváděl, že chce detekovat i změnu jediného bitu.

Vždyť i ten blbej bitcoin na ten haněnej fw v hw spoléhá. Banky jakbysmet, armáda taktéž.
Nikdo tu FW ani HW nehaní, to, že HW může selhat, je normální a počítá se s tím. Banky ani armáda samozřejmě nespoléhají na to, že hardware nemůže selhat. Právě naopak, dělají opatření proto, aby je selhání hardwaru neohrozilo – například tak, že data ukládají v několika kopiích.
No a to samé se tu tazateli taky doporučuje...

PetrM

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #144 kdy: 18. 10. 2017, 17:06:48 »
Takže abych to shrnul:

1. Pokud zkoumám možnost, jak ošetřit nějakou chybu, musím vytvořit scénář, kdy ta chyba nastane a systém si s ní poradí. Ve scénáři je pravděpodobnost té chyby 100%, i když v reálu je 0.5ppm. Tolik k tématu "zdravý disk".
2. Hash, CRC nebo kontrolní součet mají vždycky jednu společnou slabinu. Jejich délka je menší, než délka dat. Pro 16b CRC je 65536 kombinací, když budu mít 1kB dat, je to 2^8192 kombinací. Takže vždycky existuje několik kolizí a jednomu kontrolnímu číslu odpovídá několik kombinací, pokud jsou data delší, než to kontrolní číslo.
3. Kontrolní součet je nepoužitelný, nezachytí například to, jestli je v sekvenci 10 nebo 50 nulových bytů.
4. CRC se z definice nehodí pro test integrity, snadno se u tak primitivní funkce hledají kolize a je moc krátký
5. I u hashe je ideální aplikovat jej na co nejmenší data. Klesne tak riziko kolize. Vzhledem k velikosti dnešních médií a jejich ceně je těch 20GB sranda a není třeba řešit, jestli se ukládá jeden hash, nebo 1000 hashů. Takže by nemuselo být o věci mít hash na každý soubor. Když budu počítat hash 256b a průměrnou velikost souboru 100kB při zaplněných 10GB dat, je to 3.2GB navíc - i tak se to dá narvat na 32GB FLASH.
6. Pokud budu mít pět záloh a v každé pět souborů a v každé se poškodí jiný, zrekonstruuju všechno. Pokud je zabalím do jednoho souboru a ten se poškodí, jsem v pr... Takže zabalení do jednoho souboru s jedním hashem může být obrovská nevýhoda.
7. Čmoud znamená možnost konce jeho provozovatele, možnost změny podmínek, právní problémy pokud je to v cizině, poplatky za test, aktualizaci a obnovení,... (a zaznělo toho tady víc), navíc ve výsledku je to cenově horší, než vlastní infrastruktura.

Takže za sebe, jel bych v záloze po souborech a pro každý extra hash, klidně s větším kontejnerem. A hash i u metedat a adresářů. A samo, že média pod vlastní kontrolou a ne v čmoudu. Určitě jednu zálohu častější a online (samo několik kopií na jenom médiu, měl by to zvládnout například starý NTB, co si pasivně sosne data), určitě jednu zálohu offline v místě (pro rychlou obnovu) a určitě jednu kopii v bankovním sejfu. Další kopie a místa jsou na zvážení.

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #145 kdy: 18. 10. 2017, 20:57:54 »
7. Čmoud znamená možnost konce jeho provozovatele, možnost změny podmínek, právní problémy pokud je to v cizině, poplatky za test, aktualizaci a obnovení,... (a zaznělo toho tady víc), navíc ve výsledku je to cenově horší, než vlastní infrastruktura.
To byste těch dat musel mít opravdu hodně, aby srovnatelná vlastní infrastruktura vyšla levněji, než služba. Bavíme se tu o 20GB souboru – služby se platí podle objemu dat, když budete mít vlastní infrastrukturu, nemůžete tam dát méně než jeden harddisk, méně než jeden server, platit méně než jednu pozici v housingovém centru. Požadavek byl na vícenásobné uložení, takže těch harddisků, serverů a housingů bude potřeba platit několik.

Že provozovatel změní podmínky nebo skončí není problém. Nestane se to ze dne na den a soubor se snadno přenese jinam. A i kdyby provozovatel skončil ze dne na den, je to jako když odejde jeden harddisk – prostě se data obnoví z jiné zálohy. Pokud jde o šifrovaný soubor, ke kterému je klíč bezpečně uložen úplně někde jinde (ideálně off-line), neměly by s tím být žádné právní problémy.

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #146 kdy: 18. 10. 2017, 21:26:32 »
2. Hash, CRC nebo kontrolní součet mají vždycky jednu společnou slabinu. Jejich délka je menší, než délka dat. Pro 16b CRC je 65536 kombinací, když budu mít 1kB dat, je to 2^8192 kombinací. Takže vždycky existuje několik kolizí a jednomu kontrolnímu číslu odpovídá několik kombinací, pokud jsou data delší, než to kontrolní číslo.

To neni slabina, to je zamer. Je to proto, abyste si nemusel tisknout 20GB v hexa vypisu a pak to porovnavat proti hexa vypisu na monitoru. Vznik kolize je malo pravdepodobny i u proflaknuteho md5. Pravdepodobnost, ze nahodou vznikne kolize pri preklopeni nekolika bitu, se blizi nule. Typicky vzniku kolize musi nekdo pomoci a to neni tak jednoduche, pokud nema dojit ke zmene delky kontejneru a ten navic musi vypadat funkcne. A vy nemusite pouzit md5, ale vypecenejsi hash a dokonce treba dva. Vznik samovolne kolize dvou ruznych hashu je prakticky nemozny - kdyby byl, mohli bychom vsechny hashe vyhodit, protoze by byly na hovno. Tak tady nestraste nebo se male deti zacnou bat pouzivat hashe.

PetrM

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #147 kdy: 18. 10. 2017, 21:53:22 »
To byste těch dat musel mít opravdu hodně, aby srovnatelná vlastní infrastruktura vyšla levněji, než služba. Bavíme se tu o 20GB souboru – služby se platí podle objemu dat, když budete mít vlastní infrastrukturu, nemůžete tam dát méně než jeden harddisk, méně než jeden server, platit méně než jednu pozici v housingovém centru. Požadavek byl na vícenásobné uložení, takže těch harddisků, serverů a housingů bude potřeba platit několik...

Nesouhlasím, protože:
1. Prozovozatel čmoudu může mít škálovanou službu. Když chci zálohovat 20GB a on nabíne minimální kapacitu 1TB, musím stejně platit 1TB. S požadavkem na menší kapacitu za menší prachy asi nepochodím.
2. 20GB dat, to může klidně ležet na SSD v kancelářským stroji. Na to ani není potřeba datacentrum. Stačí repasovaný noťas z druhé ruky za tři litry s novým HDD za dva litry. Na HDD se rovnou vejde online záloha a katalog záloh (= 1. záloha 5 litrů).
3. Pokud chci druhou zálohu na CD/DVD, vypalovačka je v ceně řešení a platím za médium, cca koruny za přírůstkovou zálohu (jeden ROM několikrát)
4. Extetní USB disk (mám tady na stole zrovna připojený 2TB za 2000CZK) není taky nic, co by ho zabilo. Na ztrátu 100k hodin práce to vychází 0.02CZK/hodinu práce a vejde se tam 1000 snapshotů.
5. Poslední kopie na 32GB USB (3ks, periodická rotace) kolem 1500 CZK
6. MikroSD karta 32GB v peněžence jako pohotovostní kopie cca pětikilo. Čtečka je součástí NTB
7. Provozní náklady = elektrika pro noťas + rozvoz médií + sejf v bance.
8. Pořizovací náklady (NTB + SSD + 2x ext HDD + 3x USB + 1x SD + pakl CD/DVD) jsou cca 12 litrů, otázka je, jestli to potřebuje na tolika kopiích a technologiích.
9. Pokud se rozhodne, že bude zálohovat přímo z pracovního PC, odpadne noťas a náklady jsou pod desítkou (interní SSD na zálohu + 2x externí HDD + 3x USB + 1x SD + pár CD-R). To je <0.10CZK na zálohovanou hodinu práce v pěti technologiích (SSD + HDD + CD + SD + USB FLASH).
10. Za těch 9-12 litrů má člověk plnou kontrolu nad tím, kde se jeho data toulají, kolik je od nich skutečně kopií, jistotu, že mu nějaký algoritmus nesmaže účet nebo nebude někdo požadovat 100k za obnovení dat.
11. A jenom tak náhodou, přečti si běžný podmínky používání čmoudu (třeba u MS) - "za data neručíme, uživatel je povinen si udělat záložní kopii" Takže stejně by u běžnýho čmoudu člověk zaplatit to, co za schránku v bance a stejně by to měl 50/50 - buďto se k datům dostane, nebo ne.

(A zmíněná značka ADATA - Ze dvou SD karet od nich jedna vůbec nešla naformátovat, druhá klekla po půl roce. Dál jsem od nich zkoušel USB FLASH 8GB, klekla za tři dny na studeňák pod BGA. Takže pro tchýni, ne na zálohování.)

PetrM

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #148 kdy: 18. 10. 2017, 22:13:02 »
To neni slabina, to je zamer. Je to proto, abyste si nemusel tisknout 20GB v hexa vypisu a pak to porovnavat proti hexa vypisu na monitoru. Vznik kolize je malo pravdepodobny i u proflaknuteho md5. Pravdepodobnost, ze nahodou vznikne kolize pri preklopeni nekolika bitu, se blizi nule. Typicky vzniku kolize musi nekdo pomoci a to neni tak jednoduche, pokud nema dojit ke zmene delky kontejneru a ten navic musi vypadat funkcne. A vy nemusite pouzit md5, ale vypecenejsi hash a dokonce treba dva. Vznik samovolne kolize dvou ruznych hashu je prakticky nemozny - kdyby byl, mohli bychom vsechny hashe vyhodit, protoze by byly na hovno. Tak tady nestraste nebo se male deti zacnou bat pouzivat hashe.

Vím, jak to funguje a proč to tak je. Zálohování je ale přece vždycky o pravděpodobnosti obnovení dat a základ je nastavit si, jakou maximální pravděpodobnost ztráty dat jsem ochotný akceptovat. A pokud není riziko kolize HASHe v tom případě menší než akceptovatelný riziko, je potřeba si to riziko uvědomit a aktivně řešit, co s ním. Jinak požadavek nesplníš.

A připomínám, že kvalita řešení v původním dotazu je definována "0% pravděpodobnost změny jedinýho bytu". Takže i tohle je potřeba vyřešit.

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #149 kdy: 18. 10. 2017, 23:14:09 »
1. Prozovozatel čmoudu může mít škálovanou službu. Když chci zálohovat 20GB a on nabíne minimální kapacitu 1TB, musím stejně platit 1TB. S požadavkem na menší kapacitu za menší prachy asi nepochodím.
To jste ale otočil. Pevný disk neseženete o moc levněji než za cenu 1TB disku. Provozovatelů úložišť je spousta a mezi nimi dost takových, kteří nabízejí účtování po GB.

20GB dat, to může klidně ležet na SSD v kancelářským stroji.
Může, ale pak to nemá nic společného s tím, co bylo požadováno na začátku – soubor alespoň na 4 různých místech.

Na to ani není potřeba datacentrum.
Někam ty počítače umístit musíte, musejí mít napájení, připojení do internetu.

Stačí repasovaný noťas z druhé ruky za tři litry s novým HDD za dva litry.
Takže jenom pořizovací náklady 20 000 Kč. Za tu cenu to můžete mít na Glacieru uložené tisíc let. Tak dlouho vám ten notebook asi nevydrží. Mimochodem, z repasovaného noťasu budou v datacentru jistě nadšením bez sebe.

Pokud chci druhou zálohu na CD/DVD, vypalovačka je v ceně řešení a platím za médium, cca koruny za přírůstkovou zálohu (jeden ROM několikrát)
Pak ještě platíte člověka, který ty zálohy bude vypalovat, poštu, abyste je dostal do místa uložení, úložiště, druhého člověka, který se o ně bude starat v tom úložišti. A tam další počítač, na kterém budete provádět to ověřování čitelnosti – pokud ty zálohy nechcete posílat zase zpět.

Extetní USB disk (mám tady na stole zrovna připojený 2TB za 2000CZK) není taky nic, co by ho zabilo.
Externí disk máte na stole do té doby, než tam nahrajete zálohu a odešlete ho do místa uložení. Pak buď musíte na další zálohu pořídit další externí disk, nebo ten původní zase přivézt zpět.

Provozní náklady = elektrika pro noťas + rozvoz médií + sejf v bance.
Plus zaměstnanec na plný úvazek, aby se o to pořád staral. Už jenom ten rozvoz médií by vás stál víc, než kdybyste si to uložil na čtyřech nejdražších cloudových úložištích. Nehledě na to, že tam je samá manuální práce, takže obrovské riziko chyb.

Pořizovací náklady (NTB + SSD + 2x ext HDD + 3x USB + 1x SD + pakl CD/DVD) jsou cca 12 litrů, otázka je, jestli to potřebuje na tolika kopiích a technologiích.
Výborně, to vám vychází mnohem levněji, to se v porovnání s Glacierem vrátí už za 600 let.

Za těch 9-12 litrů má člověk plnou kontrolu nad tím, kde se jeho data toulají
Ne, nad tím plnou kontrolu nemá, neboť má zálohovací média neustále někde na cestách. Že by se ta data dostala do neoprávněných rukou nevadí, je to šifrované.

A jenom tak náhodou, přečti si běžný podmínky používání čmoudu (třeba u MS) - "za data neručíme, uživatel je povinen si udělat záložní kopii" Takže stejně by u běžnýho čmoudu člověk zaplatit to, co za schránku v bance a stejně by to měl 50/50 - buďto se k datům dostane, nebo ne.
Já jsem nepsal o žádném čmoudu, psal jsem o službě pro uložení dat nebo pro archivaci. Na to máte normální SLA.