Ahoj,
U nas delaji vyvojari support posledni dva roky a stabilita applikace je ted na neuveritelne vysoke urovni, kdyz to vlastne pouzivame
.
Kdypak se vyvojari dostanou normalne ke "sve" aplikaci kdyz kolabuje? Muzou si stahnout heap dump, thread dump. Podivat se ktery ze sql dotazu v db zabral nejvice prostredku v dobe kolabovani aplikace? Nikdy, jen v provozu.
Pokud napisete aplikaci, ktera nekolabuje, berte 24/7 jako benefit. Nam chodi varovani tak 5 - 10x za tyden a kriticke chyby, ktere se musi resit okamzite tak 2 - 5 krat za mesic. Uzivatelske dotazy typu "Na co mam kliknout abych dostal ten report, ktery potrebuju" neuvazuju. Na to je dalsi skupina lidi, kteri nepracuji na aplikaci, ale delaji zas upravy a rozsireni pozadovane zakaznikama. A navic si myslim, ze to do druheho dne vetsinou pocka. Zaroven si nemyslim, ze vyvojar je vhodny clovek na takovouto praci, protoze ma na aplikaci uplne jiny pohled nez uzivatel a myslim, ze by si vubec nerozumeli
.
Mam 24/7 jeden tyden (prave tento) za cca 2 mesice. Za to mam pak 1 den volno, nebo zaplaceny jeden den navic.
Dale pouzivame monitorovaci system, ktery dokaze spoustu problemu detekovat nez nastanou, aby v dobe pohotovosti nenastal pruser typu neni misto na disku etc.
Pouzivame nagios a spoustu scriptu a v pripade problemu se posila sms zprava. Na archivace statistik pouzivame ganglia vzdaleny monitoring a JavaMelody (uklada historii statistik lokalne na danem serveru)
Na pohotovosti mame vzdy dva lidi. Jeden ma sluzbu a druhy je zaloha(neplacena) pro pripad, ze nekdo proste nema v tu chvili net, nebo se nezbudi po prvnch dvou sms zpravach.
Kdyz dojde sms tak musi clovek oncall do 5 minut udelat ACK, pokud neprovede v systemu ack, dostane dalsi sms za pet minut. Pokud do 15 minut neni provedeno ACK v systemu, dostanou sms zpravu zaloha, pokud do dalsich 5 minut neni provedeno ack v systemu, tak dostanou sms vsichni kdo se ucastni hlidani systemu.
Co ostatni? Jak je to u vas? Nebo tady jen tlachate jak se vyhnout zodpovednosit za svuj kod?
Prosim pouze reakce popisujici konkretni implementaci 24/7. Nechci flame jaky predvadite u jineho vlakna kde uz je nekolik set reakci o nicem.