Dohledový systém

Standa Blábol · « **Odpověď #15 kdy:** 09. 01. 2021, 10:22:31 »

Pro tyhle ucely rozhodne Zabbix s TimescaleDB na historii a proxyny na offload sberu metrik + ansible na spravu zabbixu, je tam pro zabbix luxusni modul + agent2 psany v GO s jednoduchou moznosti vlastnich pluginu

Nagios a jeho klony uz nechte konecne zdechnout.

Reklama

Max Devaine · « **Odpověď #16 kdy:** 09. 01. 2021, 16:34:23 »

Používám Centreon. Výhodou je, že je to stále kompatibilní s Nagiosem, tím pádem je dostupné hodně hotových checků.
Má to hodně vymazlené web rozhraní s podporou ACL, lze krásně naklikat komu a za jakých podmínek posílat notifikace atd.
Má to pěkné grafy (umožňuje i jejich split, export a další věci), opravdu detailní nastavení, možnost jednoduchého předávání auth informací z hostu na všechny služby atd.
Ač to vypadá jednoduše, tak pro slušné nastavení to vyžaduje jistý skill. Tzn., že člověk si musí na web ksichtu připravit dobrou posloupnost šablon a dalších věcí tak, aby nebyl problém měnit jednu hodnotu jak globálně, tak na konkrétních službách. Prostě návrh celé struktury je stěžejní. Kdo to zvládne, tak přidání dalšího serveru na monitoring je otázkou pár kliků myší bez přemýšlení.
Jedinou ofiko podporovanou platformou je CentOS, takže nedoporučuji provozovat na ničem jiném, jelikož na ostatních platformách si to musí člověk buildit sám a někdy nemůže přejít na novou verzi, kvůli tomu, že v jiném OS je něco novějšího, ještě nepodporovanýho, než ve starém CentOS.
Centreon provozuji hafec let, býval s tím problém, pak jsem přešel z Debianu na offiko CentOS a posledních cca 5 let no problemo, plynulé upgrady a funguje to.
Má to i nějaký systém pro dynamické konfigurace, ale ten nepoužívám, zatím jedu statiku.
Placený je akorát support a některé rozšířené checky pro jiné služby. Nicméně celé je to OSS a není problém.

CheckMK dost pokročil od doby, co jsem ho viděl naposledy, ale zase pokročil směrem ke closed source, takže tím pádem u mně nemá šanci.
Incynga2 mi přijde, že je za Centreonem hodně pozadu.
Zabbix neznám, resp. nasazoval jsem ho asi před 10 lety a nelíbil se mi, od té doby jsem ho nezkoušel, takže jeho aktální stav neznám.
Zdar Max

⚫⚫⚫ · « **Odpověď #17 kdy:** 09. 01. 2021, 17:12:11 »

Citace: Standa Blábol 09. 01. 2021, 10:22:31

Nagios a jeho klony uz nechte konecne zdechnout.

+1

by_cx · « **Odpověď #18 kdy:** 09. 01. 2021, 22:41:45 »

Dlouho jsem používal InfluxDB+Telegraf+Grafana. Fungovalo to výborně, ale není tam tak silná podpora komunity, takže další metriky tam už člověk musí nastrkat sám. Nedávno jsem přešel na Prometheus+node_exporter+cadvisor+Grafana a i když bych řekl, že to potřebuje trochu víc prostředků na samotný monitoring, tak komunita je kolem Promethea mnohem silnější. Navíc alertmanager od vývojářů Promethea je úplně úžasně jednoduchej a zároveň silnej nástroj, bez kterýho bych už žít nechtěl. Když si to člověk všechno nastaví v Ansiblu nebo podobném nástroji, tak při přidávání nového serveru na tyhle detaily vůbec nemusí myslet. Nagios a jeho klony už mají to nejlepší dávno za sebou a nechtěl bych ho znovu používat.

czechsys · « **Odpověď #19 kdy:** 10. 01. 2021, 11:50:45 »

Citace: by_cx 09. 01. 2021, 22:41:45

Dlouho jsem používal InfluxDB+Telegraf+Grafana. Fungovalo to výborně, ale není tam tak silná podpora komunity, takže další metriky tam už člověk musí nastrkat sám. Nedávno jsem přešel na Prometheus+node_exporter+cadvisor+Grafana a i když bych řekl, že to potřebuje trochu víc prostředků na samotný monitoring, tak komunita je kolem Promethea mnohem silnější. Navíc alertmanager od vývojářů Promethea je úplně úžasně jednoduchej a zároveň silnej nástroj, bez kterýho bych už žít nechtěl. Když si to člověk všechno nastaví v Ansiblu nebo podobném nástroji, tak při přidávání nového serveru na tyhle detaily vůbec nemusí myslet. Nagios a jeho klony už mají to nejlepší dávno za sebou a nechtěl bych ho znovu používat.

No, ale ta komunita neni tak silna jak vypada. Kolega delal komplet Ansible/Prometheus/Grafana reseni a delali na tom dva lidi na fullday peknych par dni/tydnu.

Ve Vasem pripade mate tedy v Prometheus stacku co? Slepenec z X ruznych zdroju pro generovani grafu v Grafane ne? To je jedna z veci, co mne stale odrazuje od opetovneho zkouseni P/G, takze mam momentalne rozjety zabbix. A i tak mam problemy obcas sehnat vhodny moduly. Zde je rozsirenost monitoring-plugins apod. v nagiosu stale nejlepsi.

Kdyz to tak vezmu tak mne trapi vzdy 2 veci:
1] hledat vsude mozne zdrojaky a nutnost programovat grafy, pokud to neni out-of-box sjednoceno
2] dodavani vsemoznych extra skriptu na jednotlive monitorovaci body - jo. da se to naprogramovat v ansible, ale ta rozhodovaci logika neni uplne nejjednodussi

Reklama

NaRootuJeNeskutecneDebilniRegistracniFormular · « **Odpověď #20 kdy:** 10. 01. 2021, 12:52:09 »

Citace: Standa Blábol 09. 01. 2021, 10:22:31

Nagios a jeho klony uz nechte konecne zdechnout.

Vy asi nemate v siti kamery, switche, PDU a podobne veci, ktere se daji monitorovat leda pres SNMP, co?

⚫⚫⚫ · « **Odpověď #21 kdy:** 10. 01. 2021, 13:57:46 »

To bych nepovazoval za argument ve prospech Nagiosu.

https://github.com/prometheus/snmp_exporter
https://github.com/influxdata/telegraf/tree/master/plugins/inputs/snmp

⚫⚫⚫ · « **Odpověď #22 kdy:** 10. 01. 2021, 13:58:22 »

Citace: czechsys 10. 01. 2021, 11:50:45

No, ale ta komunita neni tak silna jak vypada. Kolega delal komplet Ansible/Prometheus/Grafana reseni a delali na tom dva lidi na fullday peknych par dni/tydnu.

Ve Vasem pripade mate tedy v Prometheus stacku co? Slepenec z X ruznych zdroju pro generovani grafu v Grafane ne? To je jedna z veci, co mne stale odrazuje od opetovneho zkouseni P/G, takze mam momentalne rozjety zabbix. A i tak mam problemy obcas sehnat vhodny moduly. Zde je rozsirenost monitoring-plugins apod. v nagiosu stale nejlepsi.

Jako nejvice flexibilni reseni se mi jevi pouzivat Telegraf jako agenta na hostech, ma pluginy na 85% pouzivanych technologii a pripadne jde velmi jednoduse rozsirovat vlastnimi skripty.
Nagios je urceny na stavovy monitoring - funguje/nefunguje. Pro seriozni monitoring potrebujete vic, mnohem vic.

Citace

Kdyz to tak vezmu tak mne trapi vzdy 2 veci:
1] hledat vsude mozne zdrojaky a nutnost programovat grafy, pokud to neni out-of-box sjednoceno

Ano, prinasi to praci navic. Ale zaroven i flexibilitu sestavit si grafy a dashboardy presne podle potreby.

Citace

2] dodavani vsemoznych extra skriptu na jednotlive monitorovaci body - jo. da se to naprogramovat v ansible, ale ta rozhodovaci logika neni uplne nejjednodussi

Souhlasim, CM je v tomhle pripade nutnost.

Exceptions · « **Odpověď #23 kdy:** 10. 01. 2021, 15:42:06 »

nagios, zabbix, icinga2 velice dobře slouží k takovémotu obecnému monitorování všeho. Nové věci jako Prometheus/Grafana/Kibana/Kafka/Logstash nasazujeme poslední dobou vedle toho a slouží velice dobře, pokud potřebuji notifikovat, korelovat a sledovat různé události v čase na sobě závislé a pak podle složitých pravidel dávat vědět na různá místa podle závažnosti (ala IDS/IPS/SIEM), stejně tak se hodí velká flexibilita ve sběru různých metrik z různých zdrojů vč. aplikačních dat a to vše v distribuované podobě. Připravené dashboardy a grafy jsou fajn, ale zpravidla si stejně všude potřebujem vytvořit vlastní, je skvělé pokud je možné spojovat metriky z více zdrojů a pohledů vč. hodnot z logů.

Je těžké říct, který ten systém je nejlepší, když každý je k něčemu jinému. Sebelepší systém se mi může rychle rozpadnout, pokud potřebuji monitorovat virtuální stroje (či dnes dockery) s jepičím životem a vázat metriky do nějakých velkých logických celků podle oddělení nebo aplikace. Pak se láme chleba, někdo na to je horší, někdo lepší.

Stejně tak může být rozhodující, jestli si chci tvořit historii i rok zpátky, jestli chci snižovat časem granualitu dat, jestli potřebuji mít možnost nastavit retenci a granualitu pro každou metriku zvlášť, opět je to pro některé nástroje nativní (influxdb) a pro některé neřešitelný.

NaRootuJeNeskutecneDebilniRegistracniFormular · « **Odpověď #24 kdy:** 10. 01. 2021, 16:57:54 »

Citace: ⚫⚫⚫ 10. 01. 2021, 13:57:46

To bych nepovazoval za argument ve prospech Nagiosu.

https://github.com/prometheus/snmp_exporter
https://github.com/influxdata/telegraf/tree/master/plugins/inputs/snmp

Ani jeden z nich neresi TRAP/INFORM.

by_cx · « **Odpověď #25 kdy:** 10. 01. 2021, 17:41:38 »

Citace

No, ale ta komunita neni tak silna jak vypada. Kolega delal komplet Ansible/Prometheus/Grafana reseni a delali na tom dva lidi na fullday peknych par dni/tydnu.

Záleží na spoustě věcí. Když někomu něco zabere týden, tak to nic neznamená. Někdo jiný by to udělal za dva dny, další za měsíc. Navíc nechápu, jak to souvisí s komunitou :-)

Citace

Ve Vasem pripade mate tedy v Prometheus stacku co?

Node exporter, Caddy exporter, Nginx exporter, cAdvisor a nějaké naše věci. První čtyři mají moc pěkné dashboardy už hotové. Dashboard s našimi věcmi jsem naklikal v Grafaně.

Standa Blábol · « **Odpověď #26 kdy:** 11. 01. 2021, 09:39:02 »

My two cents.

Ze zde dikutovane trojice, Nagios (+klony), Zabbix, Prometheus se to ma takto:

- Nagios uz nechte zdechnout, byl prvni a proto je rozsireny, jinou vyhodu nema

- Zabbix - zdaleka nejlepsi z techto, ve verzi 5.x + proxy + pluggable agent2 psany v GO + ansible oficialni modul + pyzabbix knihovna + TimescaleDB + Grafana - absolutne nejlepsi feature set, ostatni se ani neblizi.
Zabbix vsak vyzaduje vytvoreni pevneho modelu monitorovaneho sveta, ktery se polluje. Neni vhodny pro dynamicke kontejnerove aplikace, kde kontejnery vznikaji a zanikaji podle aktualniho loadu

- Prometheus + AlertManager - specializovany dohled vznikly pro potreby Kubernetes, resi problem dynamickych kontejneru. Jinak je funkcne dost omezeny a je to defacto funkcionalni navrat k devadesatym letum, kdy letely hloupe eventove konzole + RRD. V pripade kontejneru to ale jinak nejde, tam se pevny model monitorovaneho sveta ve stylu Zabbixu, CA Spectrum, EMS Smarts proste udelat neda.
Existuje pro to spousta rovnaku na ohybaky typu SNMP exporteru, funcionalite Zabbixu v teto staticke oblasti se to ani neblizi.

Resultat:
Pokud chci monitorovat staticky svet -> Zabbix
Pokud chci monitorovat pouze dynamicky svet (kontejnery) -> Prometheus
Pokud mam oboje -> Zabbix a AlertManagerem do nej preposilat vyhodnocene eventy z Promethea

czechsys · « **Odpověď #27 kdy:** 11. 01. 2021, 10:31:05 »

Citace: Standa Blábol 11. 01. 2021, 09:39:02

- Zabbix - zdaleka nejlepsi z techto, ve verzi 5.x + proxy + pluggable agent2 psany v GO + ansible oficialni modul + pyzabbix knihovna + TimescaleDB + Grafana - absolutne nejlepsi feature set, ostatni se ani neblizi.

Tohle by mne zajimalo, co to umi. Proxy je mi jasna, agent2 taky pouzivam - ale ten je podporovan je nekterych verzich debianu (zavislost na ssl apod).
S ansiblem mam ten problem, ze pak je problemove to spravovat z GUI.
Co mne nejvic zajima - k cemu ten pyzabbix, k cemu ta timescaledb (ja to mam v postgresql). Jak je to s tou grafanou - co se tam musi udelat, kazdy graf kazdeho monitorovaneho modulu se musi prevytvorit ci jak?

Standa Blábol · « **Odpověď #28 kdy:** 11. 01. 2021, 11:03:49 »

Citace: czechsys 11. 01. 2021, 10:31:05

Citace: Standa Blábol 11. 01. 2021, 09:39:02
- Zabbix - zdaleka nejlepsi z techto, ve verzi 5.x + proxy + pluggable agent2 psany v GO + ansible oficialni modul + pyzabbix knihovna + TimescaleDB + Grafana - absolutne nejlepsi feature set, ostatni se ani neblizi.

Tohle by mne zajimalo, co to umi. Proxy je mi jasna, agent2 taky pouzivam - ale ten je podporovan je nekterych verzich debianu (zavislost na ssl apod).
S ansiblem mam ten problem, ze pak je problemove to spravovat z GUI.
Co mne nejvic zajima - k cemu ten pyzabbix, k cemu ta timescaledb (ja to mam v postgresql). Jak je to s tou grafanou - co se tam musi udelat, kazdy graf kazdeho monitorovaneho modulu se musi prevytvorit ci jak?

Pro Ansigle je GUI AWX, osobne pro ansible GUI nepotrebuju.
Pyzabbix je knihovna pro Python pro praci s Zabbix API a zabbix sender. Da se s tim velice jednoduse na zabbixu naskriptovat cokoliv, co udelas z GUI.
TimescaleDB je time-series extenze do postgresu, samo se to pak stara o housekeeping a podporuje kompresi metric dat, typicky ping metrika, kde je v 99% porad 0 (OK) se zkomprimuje do par KB. Ale toto ocenis spise u vetsich instalaci, pro male monitorovane baze postaci holy Postgres
Greafana: https://www.zabbix.com/integrations/grafana
Ale popravde, posledni verse Zabbix dashboardu jsou z Grafany opajcovane a maji obdobnou funkcionalitu.

by_cx · « **Odpověď #29 kdy:** 11. 01. 2021, 11:55:35 »

Citace

Prometheus + AlertManager - specializovany dohled vznikly pro potreby Kubernetes

Prometheus je starší než Kubernetes, tak jak mohl vzniknout pro jeho potřeby? Dokonce je starší než Docker. Vznikl v době, kdy světu serverů vládla stará dobrá virtualizace.

Dohledový systém

Standa Blábol

Re:Dohledový systém

Reklama

Max Devaine

Re:Dohledový systém

⚫⚫⚫

Re:Dohledový systém

by_cx

Re:Dohledový systém

czechsys

Re:Dohledový systém

Reklama

NaRootuJeNeskutecneDebilniRegistracniFormular

Re:Dohledový systém

⚫⚫⚫

Re:Dohledový systém

⚫⚫⚫

Re:Dohledový systém

Exceptions

Re:Dohledový systém

NaRootuJeNeskutecneDebilniRegistracniFormular

Re:Dohledový systém

by_cx

Re:Dohledový systém

Standa Blábol

Re:Dohledový systém

czechsys

Re:Dohledový systém

Standa Blábol

Re:Dohledový systém

by_cx

Re:Dohledový systém