Systém se zasekává na několik minut

Pavouk106

  • *****
  • 2 400
    • Zobrazit profil
    • Můj blog
    • E-mail
Systém se zasekává na několik minut
« kdy: 24. 02. 2011, 12:24:53 »
Zdravím,

Mám doma relativně moderní desktop se dvěma 1TB WD Green disky, 64MB cache. Disky nejsou nejrychlejší, to vím. Jiný HDD v PC není. Jede na tom Gentoo Linux a používám SW RAID1 (vytvořený pomocí mdadm, mám md0 pro boot, md1 pro systém a md2 pro home).

K jádru věci - systém se mi občas zasekne i a několik minut. Reaguje jen to, co je v RAM a jen v případě, že to nemusí nutně číst/zapisovat z/na disk. Zásek se projeví na pohled rozsvícením HDD LED, podle toho poznám, že mám pauzu...

Vysledoval jsem si pár závislostí a podrobností:
Cacti a SNMP - S pomocí Cacti jsem si začal grafovat "Transitions" lokálních disků (mdX). Mělo by jít o požadavky, nebo přímo zápisy/čtení disků (v mém případě budu mluvit jen o systémovém oddílu, jiné jsou ok). Čísla níže. (Za standarsního běhu systému jde maximálně o desítky - jako referenční číslo)
Firefox - ten to způsobí vždy, někdy za dvě minuty po spuštění, někdy až za pět, ale vždy, nejčastěji na stránce s Javou nevo Javascriptem nebo AJAXem, také na tv.hokej.cz, kde se pro změnu využívá Moonlight (Opera na stejných webech tohle nedělá - kromě tv.hokej.cz, moonlight mi v Opeře nejede). Transitions v době záseku - 3000 write, standard read
BOINC - Mám nastavený po spuštění, i když Ferefox nejede, občas se sysstém zasekne, přikládám to BOINCu. Při záseku nevím, ale když PC nic jiného nedělá (nikdo nepřihlášen, žádná jiná aktivita), tak 400 write a standard read.
emerge --sync - Hromada zápisů kvůli novým/starým balíkům, téměř jistota záseku. Transitions nevysledováno

Když mám v době záseku puštěný iotop, tak an samotném vrcholu sedí buď [mdraid] nebo [jbd] (jfs? teď si nejsem jistý) nebo v horším případě oba. Vytížení ukazujou 99,9%.

hdparm -tT ukazuje správnou rychlost, jeden z parametrů udává něco vysoký, ajko rychlost elektroniky v disku (cache) a druhej už reálnou čtecí rychlost, což u mě je 90-100 MB/s, to považuju za ok.

Vůbec nevím, kterým směrem se ubírat, abych se tohohle zbavil, natož abych tušil co to způsobuje. Podezřívám RAID, možná samotné disky. Nevíte někdo? Poraďte prosím.

PS: Otázku jsem částečně zmínil i na zive.cz, tak mě prosím nekamenujte, když to tam náhodou uvidíte
« Poslední změna: 24. 02. 2011, 19:25:58 od Petr Krčmář »


trubicoid2

Re: Zasekávání systému na minuty (RAID1)
« Odpověď #1 kdy: 24. 02. 2011, 12:36:43 »
no me todle 1TB disky WD taky delaly obcas, bylo potom v dmesg neco o AHCI (pouzivas ahci, ze?), jakoze neco na tento zpusob (ale ne presne)

[   86.728816] ata3: hard resetting link
[   92.082064] ata3: link is slow to respond, please be patient (ready=0)
[   96.774074] ata3: COMRESET failed (errno=-16)
[   96.774084] ata3: hard resetting link
[  102.128032] ata3: link is slow to respond, please be patient (ready=0)
[  106.820032] ata3: COMRESET failed (errno=-16)
[  106.820043] ata3: hard resetting link
[  112.174157] ata3: link is slow to respond, please be patient (ready=0)

no a potom jsem zjistil, ze ty disky maji zvlastni jumper na neco jako "mensi ruseni" na SATA zbernici, tak jsem jim to tam vsem dal a od te doby byl pokoj

Spread spectrum clocking enabled (SSC) treba zde: http://www.wdc.com/en/library/sata/2079-001042.pdf

jinak treba jeste muzes zkusit kratsi a lepsi SATA kable

trubicoid2

Re: Zasekávání systému na minuty (RAID1)
« Odpověď #2 kdy: 24. 02. 2011, 12:40:42 »
jeste se podivej na cat /proc/mdstat

nekdy po takovym zaseku se md rozhodne, ze jeden z disku z pole vykopne, teda nebudes tam mit UU ale U_

nedelalo to ale vzdycky, jen nekdy

Pavouk106

  • *****
  • 2 400
    • Zobrazit profil
    • Můj blog
    • E-mail
Re: Zasekávání systému na minuty (RAID1)
« Odpověď #3 kdy: 24. 02. 2011, 12:55:19 »
Ohledně AHCI a dmesg nic neřeknu, nejsem u PC a nemám možnost se připojit. Nastavení jádra si taky nepamatuju. Jumpery na disku jsou, resp. piny. Mají podle nákresu na nálepce sloužit pro Windows XP a 4kB sektory (nebo tak něco - nezajímalo mě to, Win XP na tom nejsou a nikdy nebudou). Ale zkusim si ještě zjistit.

Ohledně /proc/mdstat můžu říct, že o tom vím, v tomhle směru jsem s RAIDem schopný fungovat ;-)

Ještě dodám, že mám u všech polí (oddílů) zapnutý zjišťování bad blocků a případný vykopnutí disku z pole (pomocí mdadm - pak se v /proc/mdstat ještě ukazuje u každýho pole [číslo/číslo] což má něco znamenat, ale tak hluboko jsem ještě do mdadm neprolezl - každopádně je to podle Gentoo handbooku k mdadm, je tam i napsáno, že může dojít ke zpomalení) - tahle věc to ale nezpůsobuje, dělalo to předtím stejně jako potom.

Ještě dodatek - hdparm -tT ukazuje správnou rychlost, jeden z parametrů udává něco vysoký, ajko rychlost elektroniky v disku (cache) a druhej už reálnou čtecí rychlost, což u mě je 90-100 MB/s, to považuju za ok.

Ještě pro mě důležitá věc - měl jsi taky 1TB WD Green? Nebo Blue (nebo prostě jinej)?
« Poslední změna: 24. 02. 2011, 13:00:50 od Pavouk106 »

Re: Zasekávání systému na minuty (RAID1)
« Odpověď #4 kdy: 24. 02. 2011, 13:18:26 »
Jeden z disků může být špatný a zasekávat tak raid pole.
Koukal jsi na smart? Zkus sem poslat `smartctl -a /dev/sda` a `smartctl -a /dev/sdb`
Fedora & CentOS (RHEL) user
Blog: /dev/stderr


Pavouk106

  • *****
  • 2 400
    • Zobrazit profil
    • Můj blog
    • E-mail
Re: Zasekávání systému na minuty (RAID1)
« Odpověď #5 kdy: 24. 02. 2011, 13:23:43 »
stderr - až budu večer doma, určitě pošlu.

Pokud někdo má doma (na serveru, vzdáleném PC) WD disky s 4kB sektorama (nejlépe Green), pošlete mi sem výsledek

hdparm -i

toho disku. Začínám čuchat problém...

trubicoid2

Re: Zasekávání systému na minuty (RAID1)
« Odpověď #6 kdy: 24. 02. 2011, 13:33:45 »
Ohledně AHCI a dmesg nic neřeknu, nejsem u PC a nemám možnost se připojit.

no udelej dmesg | grep ahci

[    1.124526] ahci 0000:00:11.0: version 3.0
[    1.124547] ahci 0000:00:11.0: PCI INT A -> GSI 22 (level, low) -> IRQ 22
[    1.125194] ahci 0000:00:11.0: AHCI 0001.0100 32 slots 6 ports 3 Gbps 0x3f impl SATA mode
[    1.125746] ahci 0000:00:11.0: flags: 64bit ncq sntf ilck pm led clo pmp pio slum part ccc
[    1.127847] scsi0 : ahci
[    1.128237] scsi1 : ahci
[    1.128552] scsi2 : ahci
[    1.128862] scsi3 : ahci
[    1.129212] scsi4 : ahci
[    1.129518] scsi5 : ahci


zajimavejsi je se podivat na konec dmesg, az se objevi ta chyba

Nastavení jádra si taky nepamatuju. Jumpery na disku jsou, resp. piny. Mají podle nákresu na nálepce sloužit pro Windows XP a 4kB sektory (nebo tak něco - nezajímalo mě to, Win XP na tom nejsou a nikdy nebudou).

ja mel starsi 0.5kB sektory Green 1TB, mozna tam ten jumer nemas...

Ještě dodám, že mám u všech polí (oddílů) zapnutý zjišťování bad blocků a případný vykopnutí disku z pole (pomocí mdadm - pak se v /proc/mdstat ještě ukazuje u každýho pole [číslo/číslo] což má něco znamenat...

no to nechapu, jak mas zapnuty zjistovani bad blocku?

jinak treba u me je to takto:

md1 : active raid1 sdc3[2] sdd3[3] sda3[0] sdb3[1]
      52428736 blocks [4/4] [UUUU]
     
4 ze 4 disku aktivni, 4x U, jestli by tam bylo jedno _, tak nejakej disk je oznacenej jako spatnej a vykopnutej z pole

Pavouk106

  • *****
  • 2 400
    • Zobrazit profil
    • Můj blog
    • E-mail
Re: Zasekávání systému na minuty (RAID1, WD disky)
« Odpověď #7 kdy: 24. 02. 2011, 13:38:53 »
trubicoid2: Na ACPI mrknu až budu doma, dřív ne.

Co jsem myslel bad blockama je "write-intent bitmapping". (špatně, hodně špatně, jsem se vyjádřil)

Zkusím to každopádně vypnout, ale problémy byly ještě před zapnutím... (má to dopad na výkon)

Jinak ve výpisu /proc/mdstat se takhle vyznám, už mi taky disk vypadnul, musel jsem rebuildit...
« Poslední změna: 24. 02. 2011, 13:40:59 od Pavouk106 »

trubicoid2

Re: Zasekávání systému na minuty (RAID1, WD disky)
« Odpověď #8 kdy: 24. 02. 2011, 13:48:08 »
Co jsem myslel bad blockama je "write-intent bitmapping". (špatně, hodně špatně, jsem se vyjádřil)
jo, to vypni

Jinak ve výpisu /proc/mdstat se takhle vyznám, už mi taky disk vypadnul, musel jsem rebuildit...

aha, to by mohlo znamenat nejakej problem

taky muzes rucne pozadat o kontrolu pole, obcas (jednou za tyden pres cron?) se to hodi udelat

echo check >> /sys/block/mdX/md/sync_action

a potom, az to dojede (koukni do /proc/mdstat)

echo "Mismatched blocks :"
cat /sys/block/md?/md/mismatch_cnt

a mely by tam byt samy nuly, jinak je problem

Pavouk106

  • *****
  • 2 400
    • Zobrazit profil
    • Můj blog
    • E-mail
Re: Zasekávání systému na minuty (RAID1, WD disky)
« Odpověď #9 kdy: 24. 02. 2011, 14:29:50 »
Teď neřeknu přesně, proč se pole rebuildilo, mám pocit, že to bylo po resetu kvůli grafickým ovladačům nebo tak něco... Systém úplně totálně vytuhnul (Alt + SysRq kombinace bez reakcí...).

Problém v mym případě bud v těch WD discích. Početl jsem si diskuze přímo na WD webu a lidi se shodujou v tom, že Green řada je propad, hodně velkej.

Jak dlouho máš třeba ty disk? Zeptej se SMART info (smartctl -a /dev/sda) a mrkni na Load_cycle_count.

Já teď přes mobil zkusil smartctl -a na moje disky (ale dmesg přes mobil fakt dělat nechci, je to na tom rozlišení děs) a Load_cycle_count mám skoro 55000. Disky mám tuším od března 2010! Když pominu problém s 4kB sektorama (což se musí systému vysvětlit, protože Win XP podle WD s tim problém mají, ale o Linuxu ani zmínka - systém na tom jede, ale je pomalej pravděpodobně kvůli tomu), tak hlavičky parkujou každých 8 sekund, aby byly 2x za minutu odparkovaný na požadavek systému... Tyhle disky se SAMY odepíšou ještě mnohem dřív, než uplyne záruka... a s nima moje data! Já jsem ale blbec :-( Čeká mě spousta práce s tím, abych ty disky donutil pracovat "normálně" (parkování lze přenastavit utilitou napsanou pro DOS, 4kB sektory lze OS vysvětlit, ale před použitím disků = záloha, předělat, záloha zpět).

Chce se mi fakt brečet...

Pavouk106

  • *****
  • 2 400
    • Zobrazit profil
    • Můj blog
    • E-mail
Re: Zasekávání systému na minuty (RAID1, WD disky)
« Odpověď #10 kdy: 24. 02. 2011, 15:42:17 »
Po půldenním googlení se mi jeví můj problém následovně:

Disky WD Green mají 4kB sektory, ale systému to nesdělí. Při klasickém využití (cfdisk, mkfs) s tím systém nepočítá a funguje pomalu právě kvůli konfliktu 512B vs. 4kB (teorii nedokážu vysvětlit). Lze to vyřešit vytvořením nových oddílů (resp. posunutím stávajících - stejně udělám zálohu)

Offtopic (zjištěno během googlení): Diskům WD Green parkují hlavičky po 8 sekundách nečinnosti, takže load_cycle_count jde neúměrně nahoru a životnost disků opačným směrem (lze teoreticky očekávat odpiss ještě před zárukou). Lze to vyřešit utilitou od WD (wdidle3), která jede pod DOSem.

Tak jako tak si připadám jako blbec a disky bych nejradši vyhodil z okna a na WD zanevřel

trubicoid2

Re: Zasekávání systému na minuty (RAID1, WD disky)
« Odpověď #11 kdy: 24. 02. 2011, 16:31:03 »
no partition table ma byt zarovnana na ty 4kB, novej fdisk by uz to tak mel sam delat
co ti rekne, kdyz das fdisk -c -u -l /dev/sda?

ja mam Samsungy s 0.5kB sektorama a rika:

Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes

Pavouk106

  • *****
  • 2 400
    • Zobrazit profil
    • Můj blog
    • E-mail
Re: Zasekávání systému na minuty (RAID1, WD disky)
« Odpověď #12 kdy: 24. 02. 2011, 16:51:59 »
Řekne mi to samý, co Tobě :-D

"Novej fdisk" - já to dělal skoro před rokem a cfdiskem, takže v tu dobu to tak možná ještě nebylo...

Na zive.cz jsem narazil na někoho, kdo to nejspíš už řešil nebo o tom alespoň ví. Pokud se to začne ve větším řešit tam, dám sem odkaz, aby případně další lidi věděli co a jak.

Přesun na zive.cz (a ne sem) volím proto, že nejde na 95% o chybu RAIDu, ale prvotní chyba je v HW (v kombinaci s OS).

Mám potřebu řešit jak 4kB, tak i vysoký LCC a očekávám, že změnou na 4kB se vyřeší i to zasekávání, který jsem popisoval v úvodu.

Nezlobte se, že jsem to založil tady a nakonec to nejspíš budu řešit jinde. Vaše odpovědi mi pomohly a díky nim jsem našel další podrobnosti, od kterých jsem se mohl odrazit a začít směřovat nějakým směrem. Dokud jsem se tady nezeptal a nezačalo se to řešit, nevěděl jsem nic.

Fido

Re: Zasekávání systému na minuty (RAID1, WD disky)
« Odpověď #13 kdy: 24. 02. 2011, 17:24:33 »
Mel jsem podobny problem a delalo to napajeni disku. Konektor se casem uvolni a jsou tam prechody. Idealni navic je mit kazdy disk napajeny zvlast primo ze zdroje. Dva napajeci konektoru na jednom kabelu uz delaji obcas problem.
Projevovalo se mi to az po delsi dobe behu PC a vzdycky v dobe, kdy se zapisovalo vic dat. Me to ovsem po takovem zaseku vzdycky vykoplo jeden disk z raidu. Nasledne sel bez problemu znovu pridat.

trubicoid2

Re: Zasekávání systému na minuty (RAID1, WD disky)
« Odpověď #14 kdy: 24. 02. 2011, 19:08:37 »
no jakou mas verzi fdisku? ja mam sys-apps/util-linux-2.17.2
tam by to melo urcite hlasit 4k sektory, jestli nehlasi, nemas ty disky najumperovany tak, aby delaly 4k>512 prevod? to bude asi ten jumper pro XP

jinak podle myho vyreseni 4k sektoru s tema minutovyma prodlevama nepomuze...