Fórum Root.cz

Hlavní témata => Server => Téma založeno: Liquids 27. 05. 2022, 10:53:59

Název: Cloud storage - silent data corruption
Přispěvatel: Liquids 27. 05. 2022, 10:53:59
Chtěl bych se poradit ohledně cloudových uložišt a silent data corruption.

Domací úkládání mám řešené na NAS se ZFS, kde jsem nikdy silent data corruption nemusel řešit.

Na OneDrive jsem se vrátil asi k cca 2 roky starým souborům, které se ukázaly jako poškozené. Má někdo zkušenosti ohledně dlouhodobé stability dat v cloudových úložitích? Případně je lepší zvolit něco jiného než OneDrive (ne Google:-))?

Díky za rady
Název: Re:Cloud storage - silent data corruption
Přispěvatel: cjohn 01. 06. 2022, 21:06:52
Je otazne co myslis pod "cloud storage" - ci to nebude len nejake GUI/apka, ktora ti bezi na PC a synchronizuje data dakde do cloudu.
Vseobecne AWS S3 je "cloud storage" (oficialna durability je 99.999999999%) - ale je to object storage, takze nad nim mozes este potrebovat nejaku app nadstavbu. Je vsak dost flexibilny, ked vies ako na to - napr. sifrovanie, multi region replikaciu, tiering, storage gateway, ...
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Filip Jirsák 01. 06. 2022, 21:18:06
Zdaleka nejpravděpodobnější je to, že ten soubor byl poškozený už v okamžiku nahrávání, nebo se poškodil při nahrávání.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Liquids 06. 06. 2022, 14:17:18
Je otazne co myslis pod "cloud storage" - ci to nebude len nejake GUI/apka, ktora ti bezi na PC a synchronizuje data dakde do cloudu.
Vseobecne AWS S3 je "cloud storage" (oficialna durability je 99.999999999%) - ale je to object storage, takze nad nim mozes este potrebovat nejaku app nadstavbu. Je vsak dost flexibilny, ked vies ako na to - napr. sifrovanie, multi region replikaciu, tiering, storage gateway, ...

Na domácím NAS, který používá ZFS, se konzistence dat řeší periodicky přes scrub. Chtěl jsem jenom vědět, jak to mají pořešené poskytovatelé cloudu pro osobní potřebu typu Onedrive, Dropbox...atd. Rád bych tam skladoval data v rádu roků, klidně třeba 10 let.

Zdaleka nejpravděpodobnější je to, že ten soubor byl poškozený už v okamžiku nahrávání, nebo se poškodil při nahrávání.

Před nahráním spíše nebyl a při nahrávání? Onedrive nekontroluje, jestli se to tam nahrálo správně?

Název: Re:Cloud storage - silent data corruption
Přispěvatel: Filip Jirsák 06. 06. 2022, 14:47:53
Poskytovatel cloudu to řeší tak, že má k datům spočítaný hash a data má uložena na více místech. Pokud zjistí, že hash nesedí, použije data z jiného místa.

To, jestli jsou nahraná data v pořádku, musí řešit klient ve spolupráci se serverem. Klient spočítá hash, server spočítá hash a jedním směrem si ho předají. Ta strana, která má oba hashe, pak musí zkontrolovat, že jsou stejné. Nemusí to být povinná součást protokolu – takže záleží na tom, jakého klienta jste použil.

Jinak ta cloudová úložiště pro osobní potřebu zdarma bývají deriváty placených služeb s SLA. Ty placené varianty se musí umět s poškozením souborů na fyzickém médiu vypořádat – a nedává smysl, že by provozovatelé u té varianty zdarma takovou věc záměrně odpárali.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Jan Forman 06. 06. 2022, 21:32:36
Tak oni klidně můžou redundanci dat ponížit. Pokud se z One Drive něco ztratilo, tak to nebude samo sebou.
Jinak my opravdu netušíme jak to mají implementované, ale jen víme co je možné. Technické detaily nejsou veřejné.

Zrovna u Microsoftu nějak nepočítám s tím, že je na úrovni AWS nebo Google. Možná bude horší jak Alibaba.

Poskytovatel cloudu to řeší tak, že má k datům spočítaný hash a data má uložena na více místech. Pokud zjistí, že hash nesedí, použije data z jiného místa.

To, jestli jsou nahraná data v pořádku, musí řešit klient ve spolupráci se serverem. Klient spočítá hash, server spočítá hash a jedním směrem si ho předají. Ta strana, která má oba hashe, pak musí zkontrolovat, že jsou stejné. Nemusí to být povinná součást protokolu – takže záleží na tom, jakého klienta jste použil.

Jinak ta cloudová úložiště pro osobní potřebu zdarma bývají deriváty placených služeb s SLA. Ty placené varianty se musí umět s poškozením souborů na fyzickém médiu vypořádat – a nedává smysl, že by provozovatelé u té varianty zdarma takovou věc záměrně odpárali.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Filip Jirsák 06. 06. 2022, 23:00:54
Pokud se z One Drive něco ztratilo, tak to nebude samo sebou.
Jenže Liquids nepsal o ztrátě dat, psal o poškození souborů.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: messagebus 07. 06. 2022, 00:31:12

Na domácím NAS, který používá ZFS, se konzistence dat řeší periodicky přes scrub. Chtěl jsem jenom vědět, jak to mají pořešené poskytovatelé cloudu pro osobní potřebu typu Onedrive, Dropbox...atd. Rád bych tam skladoval data v rádu roků, klidně třeba 10 let.

Před nahráním spíše nebyl a při nahrávání? Onedrive nekontroluje, jestli se to tam nahrálo správně?

Doufam, ze mate na domacim NAS ECC pameti. To by byl vrchol nezodpovednosti, kdyby ne. Co na tom pocitaci, odkud se to dostalo na onedrive? Servery v cloudu ECC pameti maji (pokud nejde o bananovy cloud)
Název: Re:Cloud storage - silent data corruption
Přispěvatel: _Tomáš_ 07. 06. 2022, 09:49:28
z chování onedrive lze odtušit, že používá obdobnou technologii jako je jeho Azure Block storage. Za roky s onedrive (primárně teda placenými a nikoliv osobním) jsem se nesetkal s poškozením dat na straně uložiště, používá standardní checksumy a auto healing. Klienti tam mají dlouhodobě ohromné množství dat a bez problémů.

S čím se ale sektávám často je porušení FS na straně klienta, onedrive není posix, nemá zámky, nemá dobře vyřešený paralelní přístup, ovladače od MS už několikrát vykazovaly závažné chyby. Tipuji, že k poškození dochází na straně klienta a poškozené soubory jsou pak v onedrive již uloženy.

Osobně ale dlouhodobě data ukládám do šifrovaným kontejnerů a k něm mám kontrolní součty, začal jsem to dělat už na diskety, cd a dnes do cloudů. Hlavní důvod je lepší katalogování dat, verzování a kontrola integrity. Setkal jsem se už s obrovským množtvím chyb a rád se vracím ke starým verzím.

ZFS scrub na serveru bez ECC je hodně riziková věc, načteš nepoškozená data z disku, v paměti se ti otočí bit, ZFS si myslí, že jsou poškozená a přemaže kopii nebo při ukládání zvalidovaných dat do ZFS dojde k změně bitu a uložíš jiná data. Scrub generuje velké množství IO operací a tím zvedá šanci, že se ti nějaká data poškodí. Nemám data z domácího NASu, ale u storage serveru (70 TB dat, denně čtení 100TB, zápis 20TB) podle interního čítače k přehození bitu v paměti v jednotkách ks za den. U domácího NASu to může být třeba jednou po půl roce, odhad čísla nemám a non-ECC paměti to neumějí ani detekovat.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Jakub Štech 07. 06. 2022, 16:08:08
U domácího NASu to může být třeba jednou po půl roce, odhad čísla nemám a non-ECC paměti to neumějí ani detekovat.

Mnohem častěji! Consumer NASy mají typicky nižší napětí DRAM a vyšší hustotu (jsou to mobilní čipsety), takže stačí menší energie částice k jejich překlopení. Nemusí to být ani ionizující záření, to zařízení si dokáže toho rušení vytvořit samo dostatek (vizte např. Rowhammer útok).

Na mém NASu se 4 GB LPDDR4 paměti jsem dělal takový kalibrační průzkum memtestem a vyšel mi řádově jeden bit-flip za GB a měsíc s pozadím okolo 120 nSv/h (normální pozadí v ČR třeba v paneláku, pokud nepoužili jako plnivo popílek z uhlí z místa, kde je víc radionuklidů v podloží).
Když jsem to přesunul do místnosti s žulovou obvodovou zdí, kde je pozadí blíž k 400 nSv/h, tak už jsem naměřil circa jeden flip za GB a den.

Toto všechno ale bylo až po opravě 12V zdroje sestavy, který do toho hnal "špinavé" napětí s rychlým šumem 400 mVpp. Pak to totiž mělo bit-flip snad každou minutu, nebyla jistota že to nabootuje, náhodně to padalo na GP fault nebo náhodné nereplikovatelné Oopsy. A filesystem to samozřejmě ničilo.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: _Tomáš_ 07. 06. 2022, 16:46:47
U domácího NASu to může být třeba jednou po půl roce, odhad čísla nemám a non-ECC paměti to neumějí ani detekovat.

Na mém NASu se 4 GB LPDDR4 paměti jsem dělal takový kalibrační průzkum memtestem a vyšel mi řádově jeden bit-flip za GB a měsíc s pozadím okolo 120 nSv/h (normální pozadí v ČR třeba v paneláku, pokud nepoužili jako plnivo popílek z uhlí z místa, kde je víc radionuklidů v podloží).
Když jsem to přesunul do místnosti s žulovou obvodovou zdí, kde je pozadí blíž k 400 nSv/h, tak už jsem naměřil circa jeden flip za GB a den.

díky! Tyhle čísla jsem chtěl slyšet, aspoň mám nějakou představu. V tom případě to i v domácích podmínkách je problém provozovat bez ECC.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Jakub Štech 07. 06. 2022, 16:57:29
Teoreticky jo, ale v praxi to tak provozuji roky (btrfs i zfs) a dobré. On totiž ten buffer před zápisem do storage je velmi malý cíl: jak prostorově (několik pár-KiB bloků) tak časově (commit interval okolo minuty). Abych měl realistickou šanci chytit single event, tak bych musel mít v kterýkoliv moment značnou část paměti plnou diskového backlogu, jako třeba na nějaké hodně vytížené databázi. NAS prakticky 100 % času sedí a nic nedělá... většina uživatelských přístupů je read-only (Kodi pustí film, atd.) kde mi bit-flip nevadí (FS to hned přečte znova, úspěšně). Těch pár zápisů denně (upload fotek, automatické zálohy počítačů, upirátěný film jednou za čas) má mizernou šanci se do toho trefit.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Jakub Štech 07. 06. 2022, 16:59:38
(koukl jsem do grafany) drtivou většinu času mám využití RAM okolo 200 MiB, tj. okolo 5 %. Ten foton se nejpravděpodobněji trefí právě do těch zbylých 95 %, kde to nic nerozbije.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Liquids 07. 06. 2022, 18:01:42
Doufam, ze mate na domacim NAS ECC pameti. To by byl vrchol nezodpovednosti, kdyby ne. Co na tom pocitaci, odkud se to dostalo na onedrive? Servery v cloudu ECC pameti maji (pokud nejde o bananovy cloud)

U domácího NASu to může být třeba jednou po půl roce, odhad čísla nemám a non-ECC paměti to neumějí ani detekovat.

Můj domácí NAS samozřejmě ECC paměti samozřejmě obsahuje... 8)
Název: Re:Cloud storage - silent data corruption
Přispěvatel: _Tomáš_ 07. 06. 2022, 20:40:05
(koukl jsem do grafany) drtivou většinu času mám využití RAM okolo 200 MiB, tj. okolo 5 %. Ten foton se nejpravděpodobněji trefí právě do těch zbylých 95 %, kde to nic nerozbije.

v tom případě nepoužíváš zfs :), jeho scrub ten poměr dat v paměti právě výrazně mění a tam vidím velké riziko bez ECC. Nemám ale představu jak přesně to je velké riziko, každý ten NAS používá trochu jinak, sám mám doma malý cluster několika 2U serverů, což asi nebude běžný stav v domácnosti a nemohu to moc porovnat.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: czAtlantis 07. 06. 2022, 21:00:08
Mně jendou dropbox "zašantročil soubor". NEbyl poškozený, ale nešel stáhnout. Jak přes klienta se nesesynchronizoval, tak přes web (tam to házelo nějakou chybu). "Bohužel" jsem si ten soubor neschoval na ukázku...
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Jakub Štech 07. 06. 2022, 21:46:57
v tom případě nepoužíváš zfs :), jeho scrub ten poměr dat v paměti právě výrazně mění

Jo, ale scrub téměř nikdy neběží. Já třeba pole scrubuju jednou měsíčně a trvá to cca 10 hodin, tj. představuje 1.3 % uptimu. Takže náhodný muon z rozpadové kaskády protonu letícího skoro rychlostí světla co si naryl držku o atom dusíku 60 km nade mnou se nejpravděpodobněji trefí do DRAM čipu právě v těch 98.7 % času, kdy ten NAS nic nedělá a má ramku skoro prázdnou :-)

ECC určitě ano, ale bude to ještě pár let než se to ze současných ARM serverů probublá do consumer cenové hladiny. A amd64 hardware nikdo do levných NASů dávat nebude. S roustoucí hustotou (a tím chybovostí) pamětí ECC bude nakonec stejně všude.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: pruzkumbojem 08. 06. 2022, 00:31:32
Nechapu co to mate za NAS.
Muj ZFS NAS4FREE furt vyuziva RAM na 99%, co ma volne, tam cpe ARC.
Jaka volna pamet?

v tom případě nepoužíváš zfs :), jeho scrub ten poměr dat v paměti právě výrazně mění

Jo, ale scrub téměř nikdy neběží. Já třeba pole scrubuju jednou měsíčně a trvá to cca 10 hodin, tj. představuje 1.3 % uptimu. Takže náhodný muon z rozpadové kaskády protonu letícího skoro rychlostí světla co si naryl držku o atom dusíku 60 km nade mnou se nejpravděpodobněji trefí do DRAM čipu právě v těch 98.7 % času, kdy ten NAS nic nedělá a má ramku skoro prázdnou :-)

ECC určitě ano, ale bude to ještě pár let než se to ze současných ARM serverů probublá do consumer cenové hladiny. A amd64 hardware nikdo do levných NASů dávat nebude. S roustoucí hustotou (a tím chybovostí) pamětí ECC bude nakonec stejně všude.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Liquids 08. 06. 2022, 03:25:35
Zrovna u Microsoftu nějak nepočítám s tím, že je na úrovni AWS nebo Google. Možná bude horší jak Alibaba.
S MS moc spokojený nejsem. Rozhodně nepošlu data do Google a že bych měl v lásce AWS se taky říci nedá. Kam to tedy poslat, aby to mělo nějakou kvalitu, pokud nemám problém za službu zaplatit?
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Karmelos 08. 06. 2022, 09:01:28
Kam to tedy poslat, aby to mělo nějakou kvalitu, pokud nemám problém za službu zaplatit?

ProtonDrive?
Název: Re:Cloud storage - silent data corruption
Přispěvatel: _Tomáš_ 08. 06. 2022, 09:45:03
Kam to tedy poslat, aby to mělo nějakou kvalitu, pokud nemám problém za službu zaplatit?

ProtonDrive?

Doporučuješ rok a půl starou službu, která je pořád v betě jako spolehlivou náhradu?
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Karmelos 08. 06. 2022, 10:31:55
Kam to tedy poslat, aby to mělo nějakou kvalitu, pokud nemám problém za službu zaplatit?

ProtonDrive?

Doporučuješ rok a půl starou službu, která je pořád v betě jako spolehlivou náhradu?

Navrhni něco lepšího, když seš tak chytrej.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: Liquids 08. 06. 2022, 10:35:25
Kam to tedy poslat, aby to mělo nějakou kvalitu, pokud nemám problém za službu zaplatit?

ProtonDrive?

Doporučuješ rok a půl starou službu, která je pořád v betě jako spolehlivou náhradu?

Celkem mě zaujal pCloud - https://www.pcloud.com, ale nejsem si jistý, jestli mají v EU více datacenter.

Na zálohu cold data mám na icedrive - https://icedrive.net/

Název: Re:Cloud storage - silent data corruption
Přispěvatel: Jakub Štech 08. 06. 2022, 12:54:18
Já mám blob storage u Backblaze, asi $1000 ročně za 20 TB. Ještě jsem tam měl zálohování/filesharing, to bylo za nějakou symbolickou částku $70/rok bez omezení velikosti, ale byla to Windows-only nativní aplikace (à la Dropbox), což už nepoužívám.
Název: Re:Cloud storage - silent data corruption
Přispěvatel: nocturne.op.15 24. 06. 2022, 11:59:03
Onedrive má jednu nectnost, na jejíž analýze jsme bez finálního závěru strávili dost času. Vypadá to jako data corruption, ale není. možná je to i váš případ?

Při stažení většího množství dat v ZIPu se může stát víc věcí:
-  tu a tam zasekne přenosna něčem a bez vysvěletní spadne (network error), zip je poškozený
- přenos se korektně dokončí, zip je poškozený
- přenos se dokončí, zip je OK, ale neobsahuje vše

ve všech případech byla data na onedrive v pořádku včetně dat, která v ZIPu neskončila. Stačilo je stáhnout separátně nebo třeba v archivu jako celek v rámci složky  - prostě mimo dávku, která selhala. Něco tam mají hrozně blbě.