Podobný hardware, jeden stroj padá

vtech

Podobný hardware, jeden stroj padá
« kdy: 18. 05. 2012, 15:51:55 »
Zdravim, mam zapeklity problem:

3 stroje - Fujitsu, 2x HP
vsechno zdanlive stejne: 12 jader Xeon X5675, 96GB RAM, NLD 10, 2.6.16.60-0.42.5

na vsech spustena (opakovane) stejna uloha
na HP (obou) dosahne peak 73GB nasleduje Error: alloc_more: out_of_memory a pad
na Fujitsu dosahne peak 83GB a normalne dobehne

Testovano po rebootu, peak sledovan pomoci free.
Uloha je closed source komercni kod.
Prosim o jakykoliv hint, na co se podivat. Mne nic nenapada. Predem diky.


« Poslední změna: 18. 05. 2012, 17:58:12 od Petr Krčmář »


trubicoid2

no to patrne nebude hw chyba, i kdyz se neda vyloucit prehrivani nebo vadna pamet

a mas stejny jadra, stejny glibc atd. na obou pocitacich? co swap? zapnut? proc se nepusti oom killer?

kvuli hw zkus memtest86, pak treba mprime torture test

vtech

Re:Podobný hardware, jeden stroj padá
« Odpověď #2 kdy: 18. 05. 2012, 18:13:10 »
Jj, swap. Na fujitsu nepochopitelne zapnut (ve standardnim image je off, musim poptat adminy, co to je za novinku), proto ta hranicni uloha na HP spadla. V pondeli overim, ale bude to ono. Dik.

vtech

Re:Podobný hardware, jeden stroj padá
« Odpověď #3 kdy: 18. 05. 2012, 18:48:43 »
Jeste drobnost, nepada stroj, ale jenom ten job. Pojmenoval jsem to nepresne a moderator to dorazil ;-)

trubicoid2

Re:Podobný hardware, jeden stroj padá
« Odpověď #4 kdy: 18. 05. 2012, 19:31:31 »
to neva, ja to pochopil  :)

teda na tom HP by melo byt v dmesg neco o OOM killer

jinak ten mprime je celkem dobrej v tom, ze umi mnoho jader a hodne pameti, muzes lehce zkusit, jestli na jednom stroji pojede 80GB pameti a na druhym ne

udelas ./mprime potom 15 potom pocet jader potom 4096 4096 a velikost pameti v MB.


vtech

Re:Podobný hardware, jeden stroj padá
« Odpověď #5 kdy: 18. 05. 2012, 23:08:16 »
dik za tip, testnu mprime na SGI UV - 512 jader 4TB RAM :-)

trubicoid2

Re:Podobný hardware, jeden stroj padá
« Odpověď #6 kdy: 19. 05. 2012, 09:40:16 »
to je 8GB na jadro, to by mohlo jit; akorat nevim, kolik toho jedna instance mprime zvladne, mozna budes muset pustit mprime nekolikrat