WindowsBackup - Event 129 během zálohování Windows 2012 Std

JardaP . · « **Odpověď #30 kdy:** 15. 09. 2015, 14:09:02 »

Citace: Zash 15. 09. 2015, 13:06:59

Citace: JardaP . 15. 09. 2015, 09:24:50
Koukal jste se na to HKLM\System\CurrentControlSet\Services\Disk\TimeOutValue, jestli to existuje a co to doopravdy dela, pokud to neco vubec dela?

V registru to je, ale nekoukal jsem, kdyz tam psal, ze se nedoporucuje to menit

Jo, ale kdyz to stejne nefunguje, tak zkusim, co mam po ruce. Horsi to tezko muze byt a vzdycky to muzu nastavit zpatky. Doporuceni MS a dodavatelu backupu atd. je nekdy lepsi ignorovat.

Reklama

Zash · « **Odpověď #31 kdy:** 15. 09. 2015, 14:34:14 »

Citace: JardaP . 15. 09. 2015, 14:09:02

Citace: Zash 15. 09. 2015, 13:06:59
Citace: JardaP . 15. 09. 2015, 09:24:50
Koukal jste se na to HKLM\System\CurrentControlSet\Services\Disk\TimeOutValue, jestli to existuje a co to doopravdy dela, pokud to neco vubec dela?

V registru to je, ale nekoukal jsem, kdyz tam psal, ze se nedoporucuje to menit

Jo, ale kdyz to stejne nefunguje, tak zkusim, co mam po ruce. Horsi to tezko muze byt a vzdycky to muzu nastavit zpatky. Doporuceni MS a dodavatelu backupu atd. je nekdy lepsi ignorovat.

No jasne, ale to je nejaky globalni nastaveni jsem koukal, tak by to prece nefungovalo ani u toho prvniho zalohovani, kdyby to bylo v tomhle cisle

JardaP . · « **Odpověď #32 kdy:** 15. 09. 2015, 15:03:01 »

Citace: Zash 15. 09. 2015, 14:34:14

No jasne, ale to je nejaky globalni nastaveni jsem koukal, tak by to prece nefungovalo ani u toho prvniho zalohovani, kdyby to bylo v tomhle cisle

Ja to z popisu pochopil tak, ze se jedna o maximalni prijatelnou delku backupu. Pokud trva dele, vypadne to s chybou:

"From the article, there is a Time-out value (HKLM\System\CurrentControlSet\Services\Disk\TimeOutValue) which should longer than the time a backup is running."

Backup 1 je maly, hodnota tedy nepretece. Backup 2 je velky. Pri prvnim spusteni se sice zdari, ale to je kompletni backup, bere se to, jak to pada a jede to rychle, i kdyz je toho hodne. Pri dalsim spusteni se delaji prirustky, coz mozna znamena hafo hrabani po disku, coz se muze protahnout a hodnota pretece. Nevim, zjistil bych, c ten kic vlastne presne znamena a stopnul bych si, za jak dlouho mi to vypadne.

Jestli v tech datech mate nejakou obrovskou databazi, mozna byste ji mohl z te zalohy vyloucit a zalohovat ji extra ulohou, aby se videlo, jestli rozdeleni na dve extra ulohy neco zmeni.

Lael.Ophir · « **Odpověď #33 kdy:** 15. 09. 2015, 15:33:54 »

Citace: Zash 15. 09. 2015, 08:07:23

Diky, ale jakto, ze ta prvni zaloha probehne vzdycky? Zalohuje se na stejny NAS, ze stejneho raid pole. To nechapu. Prece kdyby to bylo ovladacema, tak nemuze fungovat ani to prvni, ne? Kdyz je to na stejnym HW i SW.

Na prvním místě z popisu v úvodu článku mi nebylo jasné, že jde o lokální problém. Ono je to vidět podle parametrů v tom eventu 129, což by mi došlo kdybych se na stroji podíval na Object Manager, ale takhle mi to uniklo :/

Event 129 nastává pokud driver detekuje, že zařízení neodpovědělo v timeout period. To může mít různé důvody:
- Bad block na zařízení. Pokud používáte RAID, tak by disky měly být RAIDové. Ty mají ve firmwaru nastaveno, že když se nepodaří data přečíst, tak to rychle vzdají (u některých disků to lze nastavit utilitou od výrobce). Naopak ne-RAIDové disky se zatraceně dlouho snaží data přečíst, a dojde na timeout. To nastavení timeoutu v Registry (psal o něm JardaP) musí být delší než doba po kterou se disk snaží přečíst data.
- Problém s připojením disku, kabely, v případě SAN (což není váš případ - problém se projevuje i bez SANu) spojení se SAN nebo závada na jeho straně.
- Problém s vlastním řadičem nebo driverem, který vede k tomu že zařízení z hlediska OS přestane odpovídat.

To že se problém projeví jen při té delší záloze může být způsobené například bad blockem na té části disku, kterou zálohujete. Chybu dost možná odchytí RAID controller, který nakonec dá data dohromady z paritních disků, takže ji v Event Logu nemusíte vidět. Nicméně by mohla být vidět v nějakém RAID manageru, který dodává výrobce HW.
Další možností je to že se RAID controller (nebo driver) čas od času sekne na něčem úplně jiném. Pokud to nastává jednou za X hodin, a nemáte většinu času I/O subsystém plně vytížený, tak se do toho vůbec nemusíte nestrefil. Při zálohování ale čtete co to jde po dlouhé hodiny, takže na to časem narazíte.

Ovšem prostý dotaz na site:dell.com event 129 ukazuje, že váš problém není úplně neobvyklý. Ten update firmware RAID controlleru má v popisu psáno, že když má systém víc než 8GB RAM, může se občas seknout a dojde na event 129. To nejspíš souvisí s implementací DMA, kde driver controlleru říká "načti z disku X bytů, ulož je do paměti na adresu Y", kde Y je buffer ze kterého se data dál zpracovávají (pokud je to obsah souboru bez komprese a šifrování, může to být rovnou buffer cílové aplikace). Vypadá to, že pokud je ten buffer výš než 8GB, tak to ten controller nerozdýchá (možná vždy, možná občas). To jestli se buffer dostane nad 8GB je víceméně náhodné, a určitě to souvisí s obsazenou paměti včetně cache, vytížením I/O subsystému atd. Klidně to může být až po pr hodinách silného vytížení I/O subsystému.

V druhém linku někdo popisuje, že u něj problém nastával díky tomu, že RAID controller občas testoval zbývající kapacitu baterky (prý dokonce non-stop). Ta se používá pro napájení paměti, do které se dočasně ukládají zápisy na zařízení. Controller zapíše data do baterií zálohované RAM, potvrdí že zápis na zařízení byl úspěšný, a aplikace může pokračovat v běhu. Controller pak na pozadí provede zápis na fyzický disk. Jednak to celou operaci urychlí (pokud není I/O subsystém plně vytížený), a pak to controlleru dává možnost si pořadí zápisů setřídit tak aby byly co nejrychlejší. Problém je v tom, že když vám vypadne proud mezi potvrzením zápisu (data máme jen v RAM controlleru) a jejich zápisem na disk, tak OS dostal potvrzeno že operace proběhla, ale data by byla ztracena. Proto je tam ta baterka, která tu RAM pár dní udrží napájenou. Když pak systém znovu zapnete, controller zapíše na disky co zbylo v jeho RAM z doby před výpadkem.
Kapacita té baterie je tedy celkem kritický údaj, a pochopitelně časem padá. Proto controller periodicky ověřuje, jakou kapacitu ta baterka ještě má. A tam můžou nastat hned dva problémy: 1. Může to být nesprávně implementované a controller může na nějakou dobu vytuhnout, a hlavně 2. to že se provádí test vybíjení baterie znamená nutnost přestat používat tu RAM controlleru a zapsat veškerý její obsah na disk (cca 128MB-2GB dat), což nějakou dobu trvá, a myslím že by to mohlo způsobit timeout. Samozřejmě to lze implementovat lépe, a obsah té RAM není nutné vysypat na disk najednou. Opět to může být jedna z věcí, kterou lze opravit ve firmware controlleru.
V linkovaném případu pomohlo vypnout a znovu zapnout cachování na RAID controlleru, a znovu nastavit čas kdy se baterka testuje.

Na vašem místě bych tedy aktualizoval driver RAIDu, jeho firmware, čistě pro jistotu i firmware zbývajících částí HW, a zkusil pomocí utility smcli to zakázání+povolení cache na controlleru plus nastavení doby kdy se testuje baterka (pokud možno na dobu kdy server nemá moc velkou zátěž).

Support information pro váš server, včetně downloadu firmwaru a driverů, je tady:
http://www.dell.com/support/home/us/en/19/product-support/product/poweredge-r520/research
Najdete tam i support articles, a jeden z nich zmiňuje možnost nastavit čas testování baterie v aplikaci OpenManage Server Administrator. Odkaz na utilitu smcli jsem nenašel, takže nevím jestli ji máte.
http://www.dell.com/Support/Article/us/en/19/SLN130018#Section_D

Lael.Ophir · « **Odpověď #34 kdy:** 15. 09. 2015, 15:45:17 »

Citace: JardaP . 15. 09. 2015, 15:03:01

Ja to z popisu pochopil tak, ze se jedna o maximalni prijatelnou delku backupu. Pokud trva dele, vypadne to s chybou:

To nemá s vlastní délkou backupu nic společného. Jde o dobu, po kterou se čeká na dokončení SCSI Request Blocku. Pokud se operce nedokončí v této době, Storage Manager ji 8x opakuje, a pak teprve zahlásí timeout.
https://msdn.microsoft.com/en-us/library/windows/hardware/ff563970%28v=vs.85%29.aspx
https://technet.microsoft.com/en-us/library/aa997069(v=exchg.80).aspx
http://blogs.msdn.com/b/san/archive/2011/09/01/the-windows-disk-timeout-value-understanding-why-this-should-be-set-to-a-small-value.aspx

Reklama

Zash · « **Odpověď #35 kdy:** 22. 09. 2015, 20:57:40 »

Lael.Ophir: Pro info, tak jsem vsechno aktualizoval a bum, porad to samy

jeste zkusim zmenit ten cas v registrech, to jediny jsem nezkousel.

Lael.Ophir · « **Odpověď #36 kdy:** 22. 09. 2015, 21:23:47 »

Citace: Zash 22. 09. 2015, 20:57:40

Lael.Ophir: Pro info, tak jsem vsechno aktualizoval a bum, porad to samy jeste zkusim zmenit ten cas v registrech, to jediny jsem nezkousel.

To můžete zkusit, ale popsaný problém působí tak, že váš disk celých 80 sekund neodpovídá (8x ta hodnota v Registry). Pokud nepomohl update firmwaru (s důrazem na firmware RAIDu), doporučil bych nejprve diagnostiku RAID controlleru a disků. Diagnostické utility by měly být na servisní partition, případně jsou ke stažení ze stejných stránek jako firmware.

Mimochodem může být dobrý nápad kontaktovat support Dellu. Samozřejmě pokud nemáte otestovaný HW, tak to nemá smysl, protože to nejspíš bude jedno z prvních doporučení.

Zash · « **Odpověď #37 kdy:** 23. 09. 2015, 07:27:27 »

Citace: Lael.Ophir 22. 09. 2015, 21:23:47

Citace: Zash 22. 09. 2015, 20:57:40
Lael.Ophir: Pro info, tak jsem vsechno aktualizoval a bum, porad to samy jeste zkusim zmenit ten cas v registrech, to jediny jsem nezkousel.
To můžete zkusit, ale popsaný problém působí tak, že váš disk celých 80 sekund neodpovídá (8x ta hodnota v Registry). Pokud nepomohl update firmwaru (s důrazem na firmware RAIDu), doporučil bych nejprve diagnostiku RAID controlleru a disků. Diagnostické utility by měly být na servisní partition, případně jsou ke stažení ze stejných stránek jako firmware.

Mimochodem může být dobrý nápad kontaktovat support Dellu. Samozřejmě pokud nemáte otestovaný HW, tak to nemá smysl, protože to nejspíš bude jedno z prvních doporučení.

Nemyslim si, ze by to byl problem disku nebo controlleru, vsechno ostatni co se zazalohuje je na stejnych discich, na stejnem controlleru. Navic jak jsem rikal, zhavaruje pokus o prirustkove zalohovani, cili mnohem mene dat nez pri prvni zaloze a mnohem mene dat nez pri zalohovani sotatnich partition, ktere probehne vzdy, jsem z toho jelen.

j · « **Odpověď #38 kdy:** 23. 09. 2015, 09:10:24 »

Citace: Zash 23. 09. 2015, 07:27:27

...

Co nechapes na tom, ze prohlem je naprosto v cemkoli, ale rozhodne ne ve widlich. V tech totiz nikdy zadnej problem neni.

Zash · « **Odpověď #39 kdy:** 23. 09. 2015, 14:39:47 »

Citace: j 23. 09. 2015, 09:10:24

Citace: Zash 23. 09. 2015, 07:27:27
...

Co nechapes na tom, ze prohlem je naprosto v cemkoli, ale rozhodne ne ve widlich. V tech totiz nikdy zadnej problem neni.

Nikdo nerikal, ze to neni chyba windows..

ET · « **Odpověď #40 kdy:** 23. 09. 2015, 15:31:51 »

* jak dopadla zaloha na USB disk?
* konci (failuje) zalozha vzdy na stejnem miste/souboru?

Zash · « **Odpověď #41 kdy:** 23. 09. 2015, 15:37:23 »

Citace: ET 23. 09. 2015, 15:31:51

* jak dopadla zaloha na USB disk?
* konci (failuje) zalozha vzdy na stejnem miste/souboru?

Zaloha na usb disk konci stejne jako na NAS, velikost prenesenych dat je ruzna, ale konci to na par stovkach MB.

Lael.Ophir · « **Odpověď #42 kdy:** 23. 09. 2015, 15:38:21 »

Citace: Zash 23. 09. 2015, 07:27:27

Nemyslim si, ze by to byl problem disku nebo controlleru, vsechno ostatni co se zazalohuje je na stejnych discich, na stejnem controlleru. Navic jak jsem rikal, zhavaruje pokus o prirustkove zalohovani, cili mnohem mene dat nez pri prvni zaloze a mnohem mene dat nez pri zalohovani sotatnich partition, ktere probehne vzdy, jsem z toho jelen.

Pokud by šlo o chybu disku, může se to projevovat jen při přístupu k určitým sektorům, a nemusí se to ani opakovat vždycky. Pokud disky nejsou určené pro RAID, nebo nejsou přepnuté v RAID módu, tak se disk bude snažit chybu opravit opakovaným čtením, a celý RAID vám může na nějakou dobu vytuhnout. Pokud by to trvalo víc než 80 sekund (což na desktopu při vadných sektorech na disku není výjimečné), vypadalo by to přesně jak jste popisoval. Takže bych ty disky zkontroloval. Controller sice asi bude OK, ale jeho test je krátký, proto bych s ním také neváhal.

Zash · « **Odpověď #43 kdy:** 23. 09. 2015, 16:18:47 »

Citace: Lael.Ophir 23. 09. 2015, 15:38:21

Citace: Zash 23. 09. 2015, 07:27:27
Nemyslim si, ze by to byl problem disku nebo controlleru, vsechno ostatni co se zazalohuje je na stejnych discich, na stejnem controlleru. Navic jak jsem rikal, zhavaruje pokus o prirustkove zalohovani, cili mnohem mene dat nez pri prvni zaloze a mnohem mene dat nez pri zalohovani sotatnich partition, ktere probehne vzdy, jsem z toho jelen.
Pokud by šlo o chybu disku, může se to projevovat jen při přístupu k určitým sektorům, a nemusí se to ani opakovat vždycky. Pokud disky nejsou určené pro RAID, nebo nejsou přepnuté v RAID módu, tak se disk bude snažit chybu opravit opakovaným čtením, a celý RAID vám může na nějakou dobu vytuhnout. Pokud by to trvalo víc než 80 sekund (což na desktopu při vadných sektorech na disku není výjimečné), vypadalo by to přesně jak jste popisoval. Takže bych ty disky zkontroloval. Controller sice asi bude OK, ale jeho test je krátký, proto bych s ním také neváhal.

Tak jsou tam Seagate Constellation ES.3. JInak koukam, ze test od Dellu chce restart, coz si ted par dni nemuzu dovolit. Bude stacit alespon nejakej surfecate test treba pres HDDscan?

j · « **Odpověď #44 kdy:** 23. 09. 2015, 18:06:21 »

Citace: Lael.Ophir 23. 09. 2015, 15:38:21

Citace: Zash 23. 09. 2015, 07:27:27
Nemyslim si, ze by to byl problem disku nebo controlleru, vsechno ostatni co se zazalohuje je na stejnych discich, na stejnem controlleru. Navic jak jsem rikal, zhavaruje pokus o prirustkove zalohovani, cili mnohem mene dat nez pri prvni zaloze a mnohem mene dat nez pri zalohovani sotatnich partition, ktere probehne vzdy, jsem z toho jelen.
Pokud by šlo o chybu disku, může se to projevovat jen při přístupu k určitým sektorům, a nemusí se to ani opakovat vždycky. Pokud disky nejsou určené pro RAID, nebo nejsou přepnuté v RAID módu, tak se disk bude snažit chybu opravit opakovaným čtením, a celý RAID vám může na nějakou dobu vytuhnout. Pokud by to trvalo víc než 80 sekund (což na desktopu při vadných sektorech na disku není výjimečné), vypadalo by to přesně jak jste popisoval. Takže bych ty disky zkontroloval. Controller sice asi bude OK, ale jeho test je krátký, proto bych s ním také neváhal.

A tusis ty vubec jak funguje RAID? No jasne, jak bys moh, zejo ... pokud odpoved libovolnyho disku v poli presahne provozni meze, tak ho radic zcela automaticky z pole vyradi jako vadny. Aspon kazdy pricetny. V pripade realokace sektoru nebo dokonce badka je takovej disk dokonce na svepravnej radic nepripojitelnej, protoze ho do pole ani nejde pridat.

Pokud by to nedelal, tak by se totiz pole velmi brzo rozpadlo samovolne a naprosto nerizene.

Pricetny pole pak defakto nikdy nedojde do stavu kdy je degradovany, protoze problemovej disk vyrazuje driv, nez se znej stane vadnej disk, a data na nem jednoduse syncne na spare => pole se ani neprepocitava.

WindowsBackup - Event 129 během zálohování Windows 2012 Std

JardaP .

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Reklama

Zash

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

JardaP .

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Lael.Ophir

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Lael.Ophir

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Reklama

Zash

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Lael.Ophir

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Zash

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

j

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Zash

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

ET

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Zash

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Lael.Ophir

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

Zash

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std

j

Re:WindowsBackup - Event 129 během zálohování Windows 2012 Std