Synology: citlivost na chyby disku „volume crashed“

Zdravím,
teď jsem řešil Synology DS216, kam najednou nešlo zapisovat. Čtení bylo v pohodě. Když jsem se do něj podíval, tak vidím "volume crashed". V logu vidím nějaký read error a bad sector count increased.

Když se ale podívám na stav HDD (WD Black 4TB), tak tam je healthy. SMART test v logu ukazuje taky passed. HDD jsem přendal do PC a ve SMARTu vidím akorát "Raw Read Error Rate" hodnota 2
Jinak Reallocated Sector Count/Reallocated Event Count = 0

Jinými slovy HDD se tváří víceméně v pohodě. V NASu to bylo zformátováno jako Btrfs a byl to jediný HDD tam.

Jsem z toho docela rozčarován, protože za několik let jsem na Windowsech s XY HDD neřešil takovýto problém. Pokud začal odcházet HDD, tak se čtení začalo sekat, některý soubor nešel přečíst, ale NIKDY se mi nestalo, že by systém prostě prohlásil, že mu svazek selhal a nazdar, nezapíšu ani bajt.

Tady mě to dost naštvalo, že se to prostě nesnaží dál fungovat, ale má takový ten přístup "píp, píp, jsem rozbitej, zachraň mě, končím". Jako jasně, byl tam asi nějaký problém s HDD, ale přece to nemůže jen tak prohlásit svazek za zhroucený a být read-only?

Nahrává mi to kamery na baráku, proto mi nějaký argument "další zápis by mohl poškodit data co jsou na disku" přijde naprosto na pleskanec po čumáku, protože všechno je lepší, než paušálně přestat zapisovat úplně všechno.

Je to mimochodem podruhé, co se mi toto stalo - před cca půl rokem mi to taky zhavarovalo. Tehdá jsem to přisuzoval tomu, že jsem z HDD četl několik stovek tisíc souborů (+se tam i zapisovalo) a říkal jsem si že se asi něco podělalo přetíženým HDD kdy někde přetekla cache a nemělo to kam zapisovat atd atd.

Samozřejmě by to vyřešil RAID, ale to není omluva pro toto chování

Nestalo se vám něco podobného?
« Poslední změna: 22. 09. 2022, 13:18:09 od Petr Krčmář »


robin martinez

  • *****
  • 1 027
  • Have you hugged your toilet today?
    • Zobrazit profil
    • Null Storage
    • E-mail
Pred cca 12 lety jsme v jedne firme staveli nejaky synology (typ nevim) NAS s 2x SATA diskama, koupili jsme 2 ruzny od 2 vyrobcu, oba pro nasy. Jednoho dne (cca po mesici od koupi) jen vypadl ve firme proud a potom ani synology a ani jeden z disku uz nikdy nenajely - data v prde*i (jina zaloha of course nebyla). Dodnes moc nevim, co se tam jakoze stalo.

One machine can do the work of fifty ordinary men. No machine can do the work of one extraordinary man.

I do Linux, Hardware and spaghetti code in PHP, Python and JavaScript

prekladam si to spravne?:

byl jsi happys tim, ze Windows nefnukala a proste poskozovala soubory vlevo vpravo. (a pri cteni se chovala jako generator nahodnych cisel).

tohle chovani ocekavas od Nasu, garanci ulozeni dat nevyzadujes.

protoze je to jen bezpecnostni video, tak hledas neco jako "ztratove uloziste", kde by ztraty na souborech neprekrocily nejakou rozumnou mez.

ono je to nakonec asi pragmaticke uvazovani. jen mne pobavilo, jak to de  presne opacnym smerem, nez snahy u NASu a souborovych systemu jako je BTRFS



Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #3 kdy: 22. 09. 2022, 14:29:41 »
pruzkumbojem: jako částečně ano, ikdyž si nejsem vědom, že by windowsy byly jako slon v porcelánu co se týče likvidace souborů na poškozeném disku. Fňukat může, ale musí fungovat

Tady ten přístup toho synology je jako kdyby auto vyhodnotilo že mu nebrzdí jedno kolo a odmítlo pokračovat v jídě, zastavilo a konec "call service". Tohle teda ne, ikdybych měl brzdit jen motorem a ručkou, tak prostě dojedu dom klidně jen na ráfcích. Samozřejmě oznámit problém atd je v pořádku. Blokovat ale rozhodně ne!

Mimochodem další věc, co jsem nadával na ten synology - z jedné kamery mi přes FTP nešly ukládat fotky. Z dalších 2 (stejných) to jelo v pohodě. A víte čím to bylo? Synology si dal IP té jedné kamery do blacklistu, protože zrovna ta jedna kamera chtěla uložit fotku v okamžiku, kdy v synology ještě nebyl vytvořen ten user.

Doprde.e drát, takový věci nemají být by default zapnutý! A když, tak třeba jen blacklist na 10minut nebo podobně (do rebootu atd). Ale tady se to uložilo jako "permanent" a prostě nefungovalo. Jen jsem někde v logu uviděl tady tu zprávu (v záplavě jiného balastu co tam ten synology hlásí), že IP XXX is blocked due to invalid.... A ještě nejlepší je, že jsem si i vyloženě zapnul FTP log, abych se podíval co a jak a tam nebylo nic - ten blacklist byl úplně na jiné úrovni, takže k FTP se to vůbec nedostalo (třeba že bych tam viděl nějakou chybu že "attempted connection for user XX from blocked IP".

Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #4 kdy: 22. 09. 2022, 15:13:04 »
za tohle než synology může linux, btrfs je prostě tak nastavený a při chybě se snaží disk už nedráždit. Chceš-li tvůj přístup, existuje celá řada FS odolných k chybám a schopný se zotavit a pracovat aspoň nějak. Tady používáš produkt synology, který má určité vlastnosti a parametry, chceš-li to jinak, musíš si to asi sestavit sám.


Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #5 kdy: 22. 09. 2022, 15:18:43 »
DS216 btrfs neumí, takže ?

RDa

  • *****
  • 1 937
    • Zobrazit profil
    • E-mail
Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #6 kdy: 22. 09. 2022, 15:21:45 »
Ja to vidim na kombinaci stareho nespolehliveho btrfs a uzavreneho synology kramu. Pokud vyslovene clovek nepotrebuje featury ktre ma BTRFS (napada me send/receive), tak vsem odporucuji na nas davat EXT4. Uz jen proto, ze se to bude snadneji opravovat.. az se tam cpu/ram zblazni, a postrika to disk nahodnymi daty na nahodnych mistech.

DS216 btrfs neumí, takže ?

DS216+II a DS216+ ano. Nejake to plus cloveku vypadne, kdyz nevi ze existuje plus, neplus, plus 2... za zmrvene a nekonzistentni znaceni produktu uzivatel nemuze.


Jinak to Volume crashed ve me evokuje potrebu se tam prihlasit na SSH a pustit fsck, repair, reboot.

Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #7 kdy: 22. 09. 2022, 16:07:22 »
...
Jinak to Volume crashed ve me evokuje potrebu se tam prihlasit na SSH a pustit fsck, repair, reboot.

Tohle na synology potažmo btrfs nefunguje?
Gréta je nejlepší.

rmrf

Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #8 kdy: 22. 09. 2022, 16:44:55 »

Pokud ti nevadí, že na úložišti můžeš přicházet o data, můžeš je rovnou posílat do /dev/null. Já jsem třeba radši, když se o problému dozvím všas a můžu uložená data zachránit.

by_cx

  • ***
  • 171
    • Zobrazit profil
    • E-mail
Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #9 kdy: 22. 09. 2022, 16:50:40 »
Doprde.e drát, takový věci nemají být by default zapnutý!

Btrfs ukládá inody dynamicky do stromu. Nemůže tě nechat zapisovat, když ví, že ten disk není v cajku. Mohl by pak snadno přijít o velkou část dat. Pokud potřebuješ něco, co je ochotné nějak fungovat i když hardware ne, tak použij ext4.

Každý nástroj je potřeba se naučit používat. Je nesmysl si něco koupit a předpokládat, že to bude nastavené pro všechny dokonale. Nějaký zapnutý či vypnutý funkce to ale jde čistě za tebou. Pro Synology je cílem mít co nejbezpečnější default, ne naopak.

Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #10 kdy: 22. 09. 2022, 21:01:13 »
Podle popisu se to podobá chování, které nám v RS-2212RP+ vykazovaly 2TB Seagaty. Jak se ukázalo, nic zlého netuše jsme je nakoupili v době, kdy byly horká novinka s velmi dobrý poměrem cena / kapacita. Znalejší už asi tuším kam to směřuje.
Samozřejmě se ukázalo, že to jsou SMRka, jenomže nakoupené mnoho let předtím, než se provalilo co je to za katastrofu, a protože zpočátku jely v minimální zátěži, problém se neprojevil. To až v momentě, kdy jsem začal využívat Synology Active Backup, a najednou ty disky dostávaly denně pár desítek GB dat k zápisu. Klidně několik měsíců to bylo v pohodě, pak najednou databáze ActiveBackupu zkolabovala, musel jsem to zastavit, svazek úplně smazat, znova vytvořit, vyrobit složku se stejným názvem, a znova to pustit. A v logu vždycky byly jobovky o hromadě badbloků, ale ve SMARTu jich bylo jen pár, a disk se tvářil šťastně. Pak to zase pár měsíců jelo, a chybu vyhodil další.
Takže si na discích najdi modelové číslo a koukni se, jestli to náhodou není SMR.
Oni totiž až do loňska nebo předloňska tuhle informaci výrobci usilovně tajili nebo okecávali hromadou žvástů, aby zakryli fakt, že většina těch disků, když na ně hodíš větší objem dat k zápisu, velmi rychle narazí na zeď.
Pokud píšeš na disk s hromadou volného místa a hlavně s většinou zón volných, jede to báječně. Ale jak měníš data už existující, jde to do hajzlu, protože disk musí do RAM načíst zónu (typicky 128 až 512MB), v ní provést v RAM změny, a pak ji celou zase zapsat. A když nestíhá, NAS si toho všimne a svazek ti skopne.

RDa

  • *****
  • 1 937
    • Zobrazit profil
    • E-mail
Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #11 kdy: 22. 09. 2022, 21:29:39 »
... Ale jak měníš data už existující, jde to do hajzlu, protože disk musí do RAM načíst zónu (typicky 128 až 512MB), v ní provést v RAM změny, a pak ji celou zase zapsat. A když nestíhá, NAS si toho všimne a svazek ti skopne.

Tak maslo na hlavne ma i ten NAS, ktery nerespektuje megapomalej disk.

I kdyby ty IOPS klesly z 100-200 na 1, kor bez evidentni chyby cteni/zapisu, tak vykopnout disk z jinak funkcniho pole jen na zaklade toho, ze nema rychlost jaka se slusi a patri na rok 2020 a jeste to provede jakysi gulasoidni-bastl-fs, je proste fujky fujky.

U md jde ty timeouty trocha potunit, ale se SMR neda poprat nijak rozumne:
https://raid.wiki.kernel.org/index.php/Timeout_Mismatch

Re:Synology: citlivost na chyby disku „volume crashed“
« Odpověď #12 kdy: 23. 09. 2022, 09:30:14 »
Problém je, že se nebavíme o poklesu na kladné jednotky IOPS, nýbrž o poklesu na nulu po dobu klidně několika hodin. A tam už to samozřejmě spadne na timeoutu. Ty disky lze celkem snadno dostat do stavu, kdy potřebují klidně mnoho hodin na úklid a konsolidaci volného místa přeskládáním dat v zónách, po kteroužto dobu prostě požadavky na zápis (a mnohdy ani na čtení) prostě neodbavují. Např WD přesně proto aspoň začal u SMR disků uvádět objem dat za rok (!!!) které ty disky zvládnou zapsat při zachování použitelné odezvy.

Ale nechci aby to vyznělo jako rant proti SMR technologii; existují způsoby zátěže, při kterých jejich vlastnosti ničemu nevadí. "Jen" je potřeba si dát majzla, abys je nenasadil na úlohu, pro kterou jsou nevhodné.