Extrémně vysoké loady bez příčiny

Extrémně vysoké loady bez příčiny
« kdy: 20. 11. 2010, 01:35:50 »
Zdar,

(Debian Lenny)
Bohuzial uz sa dlhu dobu neviem dopatrat priciny, preco mi na serveri vyskakuje load z priemernych 0.2 az do 100 a viac. Proste z nicoho nic load vyskoci na extremne vysoke hodnoty bez toho aby bolo vidiet ktory proces to sposobuje. Pocas stupania loadu v htope alebo tope nevidno proces ktory by to sposoboval. Ziadny proces nema ine hodnoty ako pri beznom stave. V atope vidim systemovy disk vytazeny na 160%, odozva 500ms, ale dovod neznamy. Skusal som uz rozne kernely ako stable 2.6.26 tak aj 2.6.32, 2.6.35 a bezvysledne. V kern.log sa casto pocas loadov objavuje hlaska "INFO: task * blocked for more than 120 seconds." a pod nim
Kód: [Vybrat]
[67307.588885]  [<ffffffff812fa912>] ? __mutex_lock_common+0x122/0x192
[67307.588925]  [<ffffffff812faa3a>] ? mutex_lock+0x1a/0x31
[67307.588956]  [<ffffffff810f6020>] ? do_lookup+0x80/0x15d
[67307.588987]  [<ffffffff810f6aa0>] ? __link_path_walk+0x5a5/0x6f5
[67307.589020]  [<ffffffff810f6e1e>] ? path_walk+0x66/0xc9
[67307.589055]  [<ffffffff810f8288>] ? do_path_lookup+0x20/0x77
[67307.589096]  [<ffffffff810f976a>] ? user_path_at+0x48/0x79
[67307.589136]  [<ffffffff810ed876>] ? sys_faccessat+0x9f/0x165
[67307.589179]  [<ffffffff812fb815>] ? page_fault+0x25/0x30
[67307.589210]  [<ffffffff81010b42>] ? system_call_fastpath+0x16/0x1b

Mal som dojem ze je problem v SW tak som pred tyzdnom server preinstaloval na novo, jedine co na nom bezi je LAMP. CPU usage je velmi nizky, takmer nulovy.
HW servera je: Intel Core i7, 8GB Ram, WD Raptor 150GB

Akekolvek rady uvitam, dakujem
« Poslední změna: 13. 12. 2010, 08:29:08 od masterdead »


Re: Extremne vysoke loady - bez priciny
« Odpověď #1 kdy: 20. 11. 2010, 03:44:37 »
Bude tam vyhnívat IO subsystém. Podívej se jestli nechodí nějaký ptákoviny po satě, nestěžuje si řadič atp. Taky jak je ten disk vytíženej. Mrkni do dstat nebo iostat.

Re: Extremne vysoke loady - bez priciny
« Odpověď #2 kdy: 20. 11. 2010, 08:27:17 »
Tiez som si myslel ze ho nieco pravidelne vytazuje, akurat ze pocas stupania loadu, disk ma minimalny read a write. IOSTAT ukaze akurat tak 100% utilization na systemovy disk. Skusal som aj na systemovom disku iny scheduler, default bol cfg teraz som dal noop, skusal som aj anticipatory a deadline ale rozdiel nulovy.

aaa

Re: Extremne vysoke loady - bez priciny
« Odpověď #3 kdy: 20. 11. 2010, 15:40:54 »
Mne system blbol kvoli NMI - pozri /proc/interrupts (dokonca to tak zamrzlo ze som musel natvrdo restartnut), riesenim bolo pouzit kernel parameter "noirqdebug" v grub-e. Google: noirqdebug

Re: Extremne vysoke loady - bez priciny
« Odpověď #4 kdy: 20. 11. 2010, 19:43:20 »
Pozeram ale nieje tam nic nezvykle http://pastebin.com/83g1R7xM
Velkou zahadou mi je jeden moj pokus: skusal som spustat v pravidelnych intervaloch long smart test na disk. Trva priblizne 32min tak asi kazdych 36 som ho spustal. Vznikla diera vyznacena v grafe co je podla mna velmi zaujimave.


Atrament

Re: Extremne vysoke loady - bez priciny
« Odpověď #5 kdy: 20. 11. 2010, 20:59:57 »
Řešil jsem nedávno úplně tentýž problém, taky v podstatě Debian Lenny (ale v podobě Linux Mint Debian Edition), a dlouhým laborováním a zkoušením killování procesů jsem přišel na to že to dělalo Evince. No ale nevím jestli na serveru Evince máš a používáš...

Re: Extremne vysoke loady - bez priciny
« Odpověď #6 kdy: 20. 11. 2010, 21:05:21 »
Jedine co je naisntalovane su LAMP balicky, system je skoro uplne cisty

Re: Extrémně vysoké loady bez příčiny
« Odpověď #7 kdy: 22. 11. 2010, 11:58:03 »
Napadlo ma pozriet si aj smart hodnoty disku, je tam hodnota Raw_Read_Error_Rate ktora pri kazdom naraze stupa, teraz ma hodnotu cez 127tis. Je to divne lebo server bezi dlhy cas a kym som kedysi neupgradoval jadro tak to bezalo stabilne. Je sanca ze je to HW porucha?

Re: Extrémně vysoké loady bez příčiny
« Odpověď #8 kdy: 09. 12. 2010, 14:57:47 »
Takovehle vykyvy loadu bez zjevne sw priciny jsou vzdy hw porucha, nebo DDOS utok.
Jestli je to 150GB WD, tak je asi pekne stary, tudiz bych to svalil na nej.
Smart long test nemusi ukazat zadnou chybu a presto muze byt disk vadny.

Jestli mas moznost koupit novy disk a jednoduse tam nakopirovat cely system tak jak ho mas ted, zkus to, a pokud se to prestane stavat, bylo to diskem. Pokud problem pretrva, zkusil bych novou RAMku.

Vubec nejlepsi je mit nejakej spare server a v takovychto situacich vsechno prenyst na uplne jinou masinu, tim se jednoznacne identifikuje jestli je to hardwarem nebo softwarem, a pak se to muze resit.

Jinak ten dmesg mi nic moc nerika, path_walk a do_path_lookup vypada jako filesystemove funkce, ale nevim, tady varim z vody, chtelo by to delsi output.

Re: Extrémně vysoké loady bez příčiny
« Odpověď #9 kdy: 13. 12. 2010, 08:28:43 »
Praveze ta WD150 je nova, kupena vo februari minuleho roku a problem zacal cca 2-3 mesiace po nasadeni. Vtedy som upgradoval ubuntu 9.10 na 10.04 a problemy sa skryli za upgrade a mal som pocit ze je to SW problem. Zohnal som stary 3 rocny raptor a skusil ho minuly tyzden vo stvrtok ako poslednu vec vymenit v serveri a vuala problem odstraneny.

Velmi divne je to ze som disk skusil otestovat na vadne bloky a vsetko co je mozne. Nic, disk je podla testov v najlepsom poriadku. Zeby vadna elektronika?

Pajk

Re: Extrémně vysoké loady bez příčiny
« Odpověď #10 kdy: 13. 12. 2010, 12:38:23 »
Vzhledem k tomu, že uvádíte narůstání smart parametru Raw_Read_Error_Rate, tipoval bych problém s diskem (asi teda jeho elektronikou (u vady ploten by asi začaly naskakovat vadné bloky a realokace i v tom smartu), ono je to asi jedno, prostě je disk na vyhození/reklamaci). Bylo by dobré otestovat ho v jiném pc pomocí WD DLG diagnostics, to je DOS based utilita přímo od WD, bývá na různých system recovery cd jako třeba Ultimate Boot CD - http://www.ultimatebootcd.com ...