Jak správně zálohovat data okolo 20 GiB

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #75 kdy: 15. 10. 2017, 00:14:45 »
Disk vrací data opravená. To, jestli jsou ta data taky správná, si zjišťují vyšší úrovně systému – např. souborové systémy pomocí svých kontrolních součtů, aplikace zase pomocí svých kontrolních součtů (které jsou třeba ještě nad těmi kontrolními součty souborových systémů). Podle vás jsou ti autoři souborových systémů a aplikací používajících kontrolní součty blázni, kteří dělají zcela zbytečné věci. Dotyční autoři se ovšem řídí heslem „důvěřuj ale prověřuj“, protože vědí, že existují nejen bezvadné disky, ale také vadné disky. A vědí, že k takovým chybám sice nedochází tak často, aby se s nimi Milfaus už potkal, ale zase na druhou stranu nejsou tak výjimečné, aby se nad nimi dalo mávnout rukou.

A mimochodem, u dnešních disků se ty kontrolní součty nepoužívají proto, aby se opravily případné chyby, ale proto, aby se z toho šumu, který se z disku přečte, podařilo zrekonstruovat původní data s nějakou aspoň trochu slušnou pravděpodobností.


datadoclanku

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #76 kdy: 15. 10. 2017, 00:22:33 »
Ty WOE!!!!

Normálně jsem fakt v klidu, ale tady se možná řeší požadavek někoho, kdo si chce zazálohovat 20GB porna, jak si natočil sestru s jejím přítelem. A přitom je ZCELA NORMÁLNÍ POŽADAVEK, ABY NEDOŠLO KE ZMĚNĚ DAT.


Zrovna u filmu asi moc neplati, ze jeden bajt v haji muze odrovnat cely soubor.
A navrzena vec jiste bude obsahovat 100 000 clovekohodin prace. To bych musel rucne slepovat jednotlive framesy a kazdy frames upravovat ve fotoshopu hodinu.
Ztrata velkeho mnozstvi penez by se v tomto pripade dala pochopit.

Aby nedoslo ke zmene dat, to je pozadaek normalni. To je fakt.
Stejne tak jako precist si vlakno, min. uvodni dotaz.
Jsi to dneska v hospode prehnal ?

Milfaus

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #77 kdy: 15. 10. 2017, 02:35:20 »

Jsi blbej nebo tě navedl Jirsák???

Běžně, ale naprosto běžně máme databázové systémy, kde změna jednoho bitu je hodně velký problém.
Já chápu, že tohle ty pochopit nedokážeš, proto se ti ani nebudu snažit vysvětlit, že ZMĚNA ANI JEDNOHO BITU NEPŘICHÁZÍ V ÚVAHU.

DATA NA DISKU SE NEMĚNÍ AŤ UŽ JDE O MEGA, GIGA NEBO TERA!!!

Pokud by se měnila, byl by to zatraceně velký problém.
Běžně mám databázové servery, kde jsou jednotlivé databáze velké od 80 do cca 1T a přirůstají v řáde gigabajty za den.
Databáze jsou o řád citlivější na poškozené soubory a nikdy se jejich obsah nemění samovolně!!!

Tvůj počítač si možná dělá co chce, ostatní počítače pracují podle předem určeného schéma. Proto mají standardní disky ECC i na rozhraní SATA a na vnitřní straně daleko chytřejší a citlivější mechanismy. Jinak by se disk vůbec nedal použít pro databázové systémy atd.

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #78 kdy: 15. 10. 2017, 08:26:47 »
Databáze jsou o řád citlivější na poškozené soubory a nikdy se jejich obsah nemění samovolně!!!
Popisujete, co se děje, ale já jsem vám k tomu vysvětloval i to, proč se to děje. Ty databázové soubory máte uložené na nějakém RAIDu, RAID má uložené kontrolní součty bloků a při čtení je ověřuje. Pokud mu nějaký kontrolní součet nesedí, přečte data z jiného disku, kde jsou také uložená, a ten původní disk, který vrátil chybná data, označí za chybný a správce jej vymění.

Mimochodem, na skrytou změnu bitů nejsou databáze citlivější. spíš právě naopak. Většina toho, co máte v databázi uložené, jsou uživatelská data. Pokud by se v databázi změnila hodnota 55 731 na 53 683, nebo se „Praha“ změní na „PrAha“, databázi by to opravdu nijak nesložilo, protože ty hodnoty tam klidně mohl zadat i uživatel.

filcek Jirák

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #79 kdy: 15. 10. 2017, 10:07:10 »
A nebo by se změnil bit v registru vozidel v  tabulce vlastníci aut u foreign key nějakého auta a najednou by to ukazovalo že vlastník jsi ty a začli by ti chodit složenky.


Milfaus

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #80 kdy: 15. 10. 2017, 11:01:33 »

Jirsák! Bože!
Ty si myslíš, že všechny ty e-shopy bydlí na RAID polích?
Vyvedu tě z omylu, ne každá databáze ukládá data v plaintextu a databáze jsou na změnu jednoho bitu poměrně dost citlivé! Ono se to zvládne vesměs opravit, ale jak databáze zjistí nekonzistenci, musí se provést oprava.
Nebo že by nevadilo, kdyby docházelo k chybám a měnil by se datový kontejner virtuálního počítače?
Takové kontejnery mají běžně 60 GB obsazeného místa!

Zapomeň na to!
Data na disku se nemění!


Na HW úrovni to hlídá disk, dokonce i data přenášená z disku ven jsou hlídána ECC!
Může to hlídat i souborový systém.
A dobrý archivační program ti zajistí jak integritu tak se dokáže sám opravit!

To se snažíš kvalifikovat pro nominaci na Řád Michala Kolesy? ::)

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #81 kdy: 15. 10. 2017, 11:35:47 »
Zapomeň na to!
Data na disku se nemění!


To jste asi ještě neměl v ruce řadič s dírou v cache, nebo třeba s blbou implementací R6.
Je sice pravda, že data na disku se nemění, ale v okamžiku načítání dat kvůli záloze se mohou načíst vždy se stejnou chybou - která se ovšem nemění.

Naopak je dost běžné, že lidé, kteří mají svůj archiv jen na živých discích a roky je přelévají mezi disky, tak v praxi zjistí, že tu a tam něco chybí, nebo je něco poškozené. Ano, asi to nevzniklo úplně samovolně nebo třeba bez signalizace problému - ale jde o tu praxi, ve které musíte najít způsob, který bude bezpečný.

Pro Vás je to asi samozřejmost, že těmto problémům umíte předejít. U tazatele, podle toho, jak to napsal, si tím tolik jistý nejsem.

Abychom se hnuli dál a dokázali si říct, jestli jaká je pravděpodobnost chyby čtení z disku, museli bychom vědět, jak často celých 20 GB dat načítá a zapisuje - což je informace, kterou nemáme.

RDa

  • *****
  • 2 465
    • Zobrazit profil
    • E-mail
Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #82 kdy: 15. 10. 2017, 12:03:37 »
Data na discich se meni, neco jako 100% spolehlivost neni.

Mam server s ECC a 4x SAS 15k disky v Raid5, BER pro disky je specifikovano 10^15 bitu, coz je 113 TB. Disky maji dle smartu precteno cca 300TB kazdy a nedavno se takova bitova chyba objevila v knihovne ktera je soucasti PHP - takze tam nesel web a v logu hromada segfaultu z webserveru.

MD5 souboru na serveru bylo jine nez v zaloze, takze postacilo soubor obnovit ze zalohy (nastesti se ta neprepsala byt jedu rsync, ale v rezimu ze kontroluje nejprve modify time souboru a ten se nemenil). Pri kontrole obsahu jsem videl v hexdumpu jasnou modifikace jedineho bitu. Verim ze se to stane casteji a jiste mene napadne - tohle sebou neslo velice jasne a neprehlednutelne chovani.

Reseni na tohle je jedine pouzivat FS ktery ma kontrolni soucty ve sve rezii, napr. ZFS. Pak by to nejspis zkusil precist z disku jeste jednou a nenastala tato chyba.
« Poslední změna: 15. 10. 2017, 12:08:46 od RDa »

Kalup

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #83 kdy: 15. 10. 2017, 13:11:07 »
Data na discich se meni, neco jako 100% spolehlivost neni.

Jenze milfaus ma pravdu a ty si zkontroluj disky a ovladac radice!

datadoclanku

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #84 kdy: 15. 10. 2017, 13:58:01 »

Jsi blbej nebo tě navedl Jirsák???


Ohledne ceho ? Ja jsem reagoval na tvuj nepovedeny vtip v predchozim prispevku. Ze u FILMU zmena jednoho bitu snad neodrovna cely soubor. Film NENI databaze.Je to sekvence obrazku komprimovana kodekem.

Jinak jak bylo navrzeno, ze si nejde predstavit aby chyba v jednom bitu odrovnala 100 000 cloveko-hodin prace, psal jsem, ze takovych veci jsi naopak dokazu predstavit vic. - Sifrovaci klice, databaze, rozsahle projekty v tvorbe kodu, komprimovane archivy, databaze pristupovych udaju, databaze hashu, technicke vykresy. A pak samozrejme ze se to podela v nejakem miste a TC soubor nepujde otevrit.

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #85 kdy: 15. 10. 2017, 14:17:35 »
Vyvedu tě z omylu, ne každá databáze ukládá data v plaintextu
Proč by měla databáze ukládat data v plaintextu? Já jsem uváděl konkrétní příklad s celým číslem uloženým normálně ve dvojkové soustavě – obě dvě ta čísla jsou platné hodnoty, takže jenom z těch samotných hodnota databáze samozřejmě nepozná, že je něco špatně.

databáze jsou na změnu jednoho bitu poměrně dost citlivé!
To už jste jednou psal, a já jsem vám to vyvracel, že většina dat uložených databází jsou uživatelská data, a pokud by došlo k překlopení bitu v nich, databázi to nijak vadit nebude.

Ono se to zvládne vesměs opravit
Aha, takže ty chyby, ke kterým podle vás nedochází, se vlastně vyskytují, ale magicky se to samo opravuje.

ale jak databáze zjistí nekonzistenci, musí se provést oprava.
Opět, jaká nekonzistence, když k tomu podle vás nedochází?

Nebo že by nevadilo, kdyby docházelo k chybám a měnil by se datový kontejner virtuálního počítače?
Takové kontejnery mají běžně 60 GB obsazeného místa!
To, že vy jste se s nějakou chybou nesetkal, neznamená, že vůbec neexistují. Zřejmě taky nezálohujete, protože vám nikdy žádný disk neodešel a budete tvrdit, že k selhání disků nedochází. Víte, jiní lidé se ale neřídí jen svou vlastní zkušeností, takže když mají informace o tom, že disk může selhat, zálohují data, i když jim disk zatím neselhal.

Data na disku se nemění!
Stopy na disku jsou dnes tak blízko u sebe, že zápis do jedné stopy ovlivňuje i vedlejší stopy. Dnešní disky fungují spíš tak, že čtecí hlava přečte nějaký spíš šum než data, a na základě samoopravných kódů se z toho zrekonstruuje, co tam asi mělo být uloženo. Ta data se nemění v tom smyslu, jak si to představujete vy, že by na tom disku někde byla vyražená jednička a sama se změnila na nulu. Ne, ta data se mohou změnit tak, že tam toho šumu může být už příliš mnoho, víc, než kolik zvládnou opravit dané samoopravné kódy.

Může to hlídat i souborový systém.
Aha, takže souborový systém hlídá chyby, které nemohou nikdy nastat. Proč pak to asi dělá?

A dobrý archivační program ti zajistí jak integritu tak se dokáže sám opravit!
A dokonce i dobrý archivační program hlídá chyby, které nemohou nikdy nastat. Zdá se, že v oblasti ukládání dat panuje obsese v ukládání zbytečných kontrolních součtů. Tak proč se k tomu nepřidat a neuložit si je taky?

Mimochodem, bavili jsme se tu o 7zipu a raru, což nejsou archivační programy, ale komprimační. A dobrý komprimační program rozhodně data nebude opravovat, protože pro možnost opravy dat potřebujete jejich redundanci, nebo-li by se tím velikost komprimovaného souboru zvětšovala. Přičemž komprimační soubory se používají proto, aby byl zkomprimovaný soubor co nejmenší, ne proto, aby byl ještě větší, než originál. Podobné je to i s těmi kontrolními součty, i ty zabírají místo navíc.

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #86 kdy: 15. 10. 2017, 14:26:06 »
Data na discich se meni, neco jako 100% spolehlivost neni.
Jenze milfaus ma pravdu a ty si zkontroluj disky a ovladac radice!
Kdyby měl Milfaus pravdu, tak by přece kontrola disků a řadičů byla zbytečná. Pokud by nemohla nastat chyba disku nebo řadiče, která by znamenala přečtení špatných dat, co byste na tom chtěl kontrolovat? Takže sám potvrzujete, že není možné se spolehnout na to, že disk 100% vždy vrátí správná data. Ano, pokud disk vrátí špatná data, je to ve většině případů způsobené závadou na disku nebo na řadiči. Ale proto se ty kontrolní součty používají, aby se takové závady odhalily.

Googler

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #87 kdy: 15. 10. 2017, 14:31:35 »
Běžně, ale naprosto běžně máme databázové systémy, kde změna jednoho bitu je hodně velký problém.
Já chápu, že tohle ty pochopit nedokážeš, proto se ti ani nebudu snažit vysvětlit, že ZMĚNA ANI JEDNOHO BITU NEPŘICHÁZÍ V ÚVAHU.

DATA NA DISKU SE NEMĚNÍ AŤ UŽ JDE O MEGA, GIGA NEBO TERA!!!

Pokud by se měnila, byl by to zatraceně velký problém.
Běžně mám databázové servery, kde jsou jednotlivé databáze velké od 80 do cca 1T a přirůstají v řáde gigabajty za den.
Dobry den pane Milfhausi,
v Googlu nas stoji redundance na detekci a opravu poskozenych dat opravdu hodne. Zmeny bitu nastavaji v CPU, RAM i na disku. V zavislosti na frekvenci bitflipu a poloze zasazenych servru lehce urcime polohu slunce nad datacentrem, coz napovida, ze nejde o softverovou chybu.

Budou-li vase znalosti uzitecne k znizeni nasi redundance bez zvyseni rizika, bohata odmena vas nemine. Zanechejte zde kontakt.
Dekuji

datadoclanku

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #88 kdy: 15. 10. 2017, 14:50:24 »
Dobry den pane Milfhausi,
v Googlu nas stoji redundance na detekci a opravu poskozenych dat opravdu hodne. Zmeny bitu nastavaji v CPU, RAM i na disku. V zavislosti na frekvenci bitflipu a poloze zasazenych servru lehce urcime polohu slunce nad datacentrem, coz napovida, ze nejde o softverovou chybu.

Opravdu je Slunce (jeho poloha a odtud i tok vysokoenergetickych castic) jednou z hlavnich pricinou chyb v datech (ram, disky) ? To jsem ani nevedel. Spis bych vinu daval mobilum, spotrebicu, tramvajim a pod. Ale asi to opravdu budou ty vysokoenergeticke castice. Jake procento chyb priblizne souvisi se Sluncem a zavisi fregvence chyb i na Slunecnim cyklu ?

Milfaus

Re:Jak správně zálohovat data okolo 20 GiB
« Odpověď #89 kdy: 15. 10. 2017, 14:51:00 »
Kdyby měl Milfaus pravdu, tak by přece kontrola disků a řadičů byla zbytečná.

Cache řadiče má ECC, propojovací kabely jsou chráněny na úrovni protokolu ECC i disky mají různé způsoby opravy.

A teď, proč tam ta kontrola je.
V prvé řadě jde o to, jestli se data zapsala správně, jestli například nevypadl proud v průběhu zápisu.
To je primární důvod kontroly konzistence dat.

Disk vrací správná data (pokud není poškozený nebo nemá poškozený firmware), ale pokud v průběhu zápisu dojde k chybě z důvodu selhání napájení nebo třeba selhání ovladače, pak se taková chyba objeví.

Já chápu, že tomu třeba nerozumíte, ale je to tak.
Vezměte si to obráceně, pokud by ke změnám na disku docházelo, pak by raid 0 nebyl možný!

Prosím, zkuste si pustit takovýto skript:
  • Spočítej SHA2-256 nějakého filmu
  • Bod 2: Zkopíruj film
  • restartuj PC
  • pokud i<10 000 jdi na bod 2
  • Porovnej SHA výsledku
Jde to udělat i bez restartu, ale chce to mít systém s dostatně malou pamětí, aby se neuplaťnoval vliv cache a data se skutečně četla.

Uvidíte, že ani po 10 000 zkopírováních nedojde k chybě.
No, pokud by došlo, máte jednoduše vadnou ram.

Chápu, že to pro člověka s výučákem může být těžko uchopitelné, ale člověk s maturitou by s pochopením neměl mít problém.


Jak bylo zmíněno výše, zkontroluj si řadič, SMART hodnoty disků a aktualizace firmware.
Toto není standardní stav.

Lidi, kdyby se soubory poškozovaly, VŮBEC BY NEFUNGOVAL BITTORENT!!!
Každý by měl jinou verzi souboru a hash by bylo zbytečné provádět, protože by se musel provést třeba 100x