Super, tohle jsem presne potreboval slyset, uz jsem doma
Takze ti vlastne jde o klasicky monitorovani sitovych prvku a serveru, zadne exoticke krabicky, u kterych bys chtel merit janevim prutok vody. A taky vlastne nehledas konkretni reseni konkretniho problemu, ale ptas se tak nejak obecne na nase zkusenosti. Ok, pokusím se přispět troškou do mlýna, snad ti to k něčemu bude
Hele, prvně bych řekl, že to, že jsi četl různý silně protichůdný informace, je v téhle oblasti samozřejmý, protože zkušenosti se odvíjí od toho, jakou přesně situaci ten kterej admin řeší. Např. pokud jsi ISP, tak monitoruješ stabilní infrastrukturu a Nagios je pro tebe super, protože konfiguraci nepotřebuješ zas tak často měnit. Oproti tomu pokud máš nějakej elastickej klaud kdesi na AWSku a přibývají a mizí ti tam servery každých 10 vteřin, tak by ses z Nagiosu vosral... Takže prostě nečekej jednotný názory, spíš si všímej, na jakej typ nasazení se komu kterej sw osvědčil a proč *přesně* (co konkrétně na něm chválí a co ho štve).
Moje zkušenost:
Monitoruju stabilní infrastrukturu s malým počtem položek. Zkoušel jsem různý nástroje a zvolil jsem Nagios, protože se mi na něm líbilo, že jsem byl schopnej pochopit *přesně*, jakým způsobem funguje (prostě jednou za x minut spustí určitý skript, ten vrátí určitý kod, ten se pak hodí do RRD nebo se dá zpracovávat dalším skriptem atd. atd.) - prostě Nagios mi ze všech těch nástrojů přišel "nejunixovatější" - jasně oddělené části, které dělají jasně definované jednoduché ulohy. Takže mi dával nejlepší prostor si jednotlivý části přizpůsobit. Jo a taky není v Javě, to jsem považoval za velký plus
Postupně jsem jednotlivý čísti Nagiosu začal nahrazovat vlastními řešeními a nakonec mi zůstalo jenom jádro (scheduler), který jsem nakonec přepsal taky, takže ted už Nagios nemám, už používám jenom jeho pluginy
Nagios má v základu různý nevýhody, ale celkem všechno se dá překonat, bud pomocí check_mk nebo forků (icinga, schinken), ale jednu věc považuju za fakt velkou koncepční chybu: jednotlivý checky vracejí přímo STAV a kromě něj taky nějaký performance data. To je podle mě špatně. Checky by imho správně měly být koncipovaný jenom jako senzory, který vrací hodnoty a nad nima je pak nějakej vyhodnocovač, kterej řekne, jestli v kontextu ostatních hodnot je to ok nebo ne. Tahle koncepční chyba se pořádně nedá překonat, protože od stavu, kterej vrací check, se odvíjí i rescheduling. Takže dost těžko se dá na Nagios naroubovat nějaká korelace eventů apod. Pokud ji chceš, tak Nagios je slepá ulička. Tohle byl hlavní důvod, proč jsem si ho pro svoje potřeby přepsal. Jinak je to ale hezkej kus sw, žádná pětisetmegová hipsterská pětisetmegová srágora která jenom pro sebe potřebuje spešl cluster