Dohledový systém

Stepan Cirkl · « **kdy:** 06. 01. 2021, 14:48:52 »

Dobrý den,

chystám se na nový monitorovací server. Dohled teď nějakou dobu neprovozuju, z dřívějších dob (cca -8 let) mám zkušenost s Nagios na monitoring dostupností v kombinaci s CACTI na grafování trendů. Vzhledem k mé delší absenci v této oblasti bych rád prodiskutoval aktuální stav systémů a možností, než se vrhnu do budování systému dle původní architektury. Přece jen už je to pár let a vývoj jde dopředu a nemusím procházet všechny slepé uličky. :-)

Požadavky:
1. Provoz na Linuxu, ideálně volná licence. Určitě ne licencování založené na počtu monitorovaných systémů.
2. Chtěl bych monitorovat dostupnost hostů, služeb, definici závislostí prvků na sobě. Testy spouštěné z monitorovacího serveru vůči monitorovaným cílům, případně SNMP, agent na monitorovaném systému.
3. Monitoring trendů, tedy grafování. Zde předpokládám SNMP, agent.
4. Pokud bych uměl sbírat na jedno místo logy, nějaké vyhodnocování, alerty, nástroje pro prohledávání, bylo by to fajn, ale není nutné.
5. Víceuživatelský přístup, role s oprávněními jak z hlediska možnosti prohlížení / konfigurace tak přístupu ke skupinám prostředků. Přiřazování monitorovaných hostů do skupin ručně, ne dle typu. Konfigurace stačí povolená pro lidi s globálním přístupem, osoby s přístupem k omezenému počtu monitorovaných systémů stačí jen čtení.
6. Reporting výpadků, mail, případně SMS. Možnost konfigurace komu reportovat dle skupin, případně časů. Potlačení opakovaného reportu po nějakou dobu.
7. Ideálně webové rozhraní. Další může být jako bonus.
8. Monitorované systémy budou routery, switche, servery, služby na serverech. (Linux, Windows, switche a routery různí výrobci HW).
9. Možnost definovat komplexnější služby složené z jednotlivých hostů / služeb je bonus, není nutné.
10. Něco, co nebude moc složité. Jak pro běžného uživatele, tak pro nastavení. Jak prvotní, tak v rámci údržby a aby to nevyžadovalo někoho, kdo to bude na půl úvazku oprašovat. Stejně tak by to nemělo mít přehnané požadavky na HW.

Architektura by byla taková, že by v centru byl umístěný server s monitorovacím SW a ten by pak monitoroval služby a hosty přes internet a další přes site2site VPN do lokalit. VPN by zařizoval FW předřazený tomu serveru, takže to by neřešil.

Počet monitorovaných hostů/služeb bude v řádu vyšších stovek, max. menších jednotek tisíců.

Jak jsem uvedl výše, zkušenost mám s CACTI a Nagios. Nagios mi plně vyhovoval, co tam bylo krkolomnější byla konfigurace přes textové soubory. Kdyby se standardní konfigurační věci (přidání hosta, smazání hosta, uživatele) daly klikat, bylo by to lepší, mohl bych do správy zapojit více lidí. V tomto se mi líbila Cacti, která měla nastavení přes webové rozhraní. U ní býval trochu problém při větším množství monitorovaných systémů proces sbírání dat, který pak trval delší dobu (což nějaké řešení mělo). Také reprezentace dat z dnešního hlediska asi nebyla úplně moderní.

Co jsem koukal, tak Nagios je zatím stále uváděn mezi top produkty. Cacti také stále žije. Je cesta kombinace těchto produktů stále správná, nebo jdou trendy spíš jinam? Je tu Icinga, fork z Nagiosu, narazil jsem na celkem dobře hodnocený Zabbix. Chci něco hostovaného na vlastním HW, nemám zájem o žádnou cloudovou službu.

Jaké jsou Vaše zkušenosti a doporučení?

Díky

Štěpán

Reklama

Exceptions · « **Odpověď #1 kdy:** 06. 01. 2021, 15:01:08 »

krátce, možností je pořád spousta, nagios a cacti ještě žije, ale mrkni třeba na prometheus, prometheus alertmanager, systemd-exporters, grafana, je s tím více práce, ale funguje to dobře.

V enteprise poslední dobou nagios odstraňujeme a jedeme buď splunk a několik pluginů nebo elk stack s logstashem, beatem na alerty, část věcí pak jde do front v kafce, kde nad tím může být nějaký IPS/IDS/Alerting.

Cest je ale hodně, ani nagios není špatný, když s ním umíš.

⚫⚫⚫ · « **Odpověď #2 kdy:** 06. 01. 2021, 15:48:27 »

Citace

krátce, možností je pořád spousta, nagios a cacti ještě žije, ale mrkni třeba na prometheus, prometheus alertmanager, systemd-exporters, grafana, je s tím více práce, ale funguje to dobře.

To je urcite cesta, ale podobny setup bych doporucil pro nekoho kdo dokaze vyuzit vsechny jeho vyhody. OP dle zadani chce spis neco jednoducheho na spravu, napriklad Zabbix.

Exceptions · « **Odpověď #3 kdy:** 06. 01. 2021, 16:40:27 »

jo, zabbix je také dobrý služebník, za mě je dost rozsáhlý na konfiguraci, přidávání vlastních grafů a dashboardů není zrovna snadné. Nemá svůj backend pro ukládní historických dat, takže k němu musíš stejně přidat něco, kde to vše bude uložené, pokud ti nestačí pouze current monitoring. Někomu může vadit frontend v php a s tím spojené těžkosti při upgrade a provozu.

Také to je ale dobrá volba.

⚫⚫⚫ · « **Odpověď #4 kdy:** 06. 01. 2021, 16:44:10 »

Grafy a dashboardy pro Zabbix resi https://grafana.com/grafana/plugins/alexanderzobnin-zabbix-app

Reklama

Exceptions · « **Odpověď #5 kdy:** 06. 01. 2021, 18:27:21 »

grafana je ksicht pro zobrazení historických metrik, nemá ale uložiště, tím je třeba prometheus (či výkonnější victoriaMetrics) a jsme vlastně u mé první odpovědi

.

K zjišťovaní trendů potřebuješ historii. Zabbix + grafana + prometheus + prometheus alertmanager je pěkný stack, často ho nasazuji do menších projektů, umí to monitorovat vše, sestavit se to dá rychle, konfiguruje se to dobře přes ui, api i staticky textovými konfigy.

Další možnost je pak věci kolem influxDB, dříve jsem je měl rád, dneska jim nerozumím. Nagios pořád ale patří mezi špičku a není na něm nic zlého, když ho umíš.

⚫⚫⚫ · « **Odpověď #6 kdy:** 06. 01. 2021, 18:38:37 »

Samozrejme, ze Zabbix ma data storage - myslq/postgress/timescaledb. Vyhoda zabbixu je prave to, ze nainstalujes dva baliky a mas funkcni nastroj pro pomerne komplexni monitoring.

Stepan Cirkl · « **Odpověď #7 kdy:** 06. 01. 2021, 18:45:18 »

Co si pamatuji, tak on samotný Nagios také je spíš pohled na aktuální stav, než historii. Respektive, je tam historie pádů, spolehlivost. Na vytížení linek, cpu a pod jsme používali CACTI. Což byly dva nástroje. Tohle mít v jednom by nebylo špatné, aby se člověk nedostával do situace, kdy je to zařízení v jednom systému je a v druhém ne.

Zkusím si ještě něco počíst a asi krapet s tím pohrát. Ten Zabbix nevypadá úplně špatně. Když to bude moc složité, tak hodím Nagios.

Díky

Václav Ovsik · « **Odpověď #8 kdy:** 06. 01. 2021, 19:45:37 »

Hodil bych oko i na https://checkmk.com/. Má to RAW edition, která je OpenSource a používáme to. Výhoda je, že to je značně přímočaré. Samo si to zinventorizuje co najde a sleduje. V té RAW verzi běží uvnitř starý Nagios, ale na vrchu je dosti vymakaný frontend. Teď začátkem roku má vyjít verze 2, která už bude přepsaná do Pythonu 3...

faha · « **Odpověď #9 kdy:** 06. 01. 2021, 21:43:25 »

https://www.librenms.org
https://www.zabbix.com

hexdump · « **Odpověď #10 kdy:** 07. 01. 2021, 19:43:58 »

Také doporučuji mrknout na https://checkmk.com/. Jednoduchá minutová instalace a máte vymazlený klikací nagios s grafy.
Používám jej denně cca 4 roky bez problémů. Teď je před vydáním nová verze s přepracovaným ovládáním. Zatím používám na testovacím virtuálu betaverzi a nezaznamenal jsem problémy. Opravdu doporučuji alespoň zkusit. Výsledek stojí za to.

Pavel Rauš · « **Odpověď #11 kdy:** 08. 01. 2021, 07:55:29 »

icinga2 - S Directorem ( který zatím nepoužívám ) lze snad vše naklikat a pokud se na servery nainstaluje agent, tak si to spolu bude samo povídat a konfigurovat se.

centreon - kdysi fork nagiosu, dnes už jdou vlastní cestou. Vše se kliká nebo konfiguruje přes api.

Obojí mám prakticky vyzkoušené z poměrně velkých instalací. Obojí vyžaduje na začátku poměrně dost času na pochopení a správnou instalaci ( ale to je asi obecná vlastnost komplexních monitorovacích systémů ). Ale když to člověk udělá správně tak v obou případech je pak následná správa jednoduchá a kromě aktualizací je to víceméně bezúdržbové. Obojí má aktivní vývoj, nejsou tam žádné náznaky, že by projekt měl umřít.

Samozřejmě existují i věci jako prometheus apod. - ten bych si jako primární monitoring asi nevybral ( podobně jako stejnojmenný film, je to trošku horror ), ale třeba jako doplněk stávajícího monitoringu pro detailnější pohled do kubernetes platformy ... asi proč ne.

A k té grafaně - lezou z toho pěkné grafy, jejich definice ale neni jednoduchá a pozor - hotové dashboardy mají dost často chyby, které nejsou na první pohled vidět ( člověk si toho všimne obvykle až ve chvíli, kdy mu začné být podezřelé, že má na 1Gbit síťovce špičky 1.5Gbit :-) ). Náročnost pro zobrazení dat na klientovi je obrovská.

Exceptions · « **Odpověď #12 kdy:** 08. 01. 2021, 11:46:24 »

Pavel Rauš: používáš centreon ve free nebo placené verzi? Mně ta free připadá výrazně omezená na konfiguraci, chybí tam spousta užitečných funkcí, v placené verze to je ale výtečný nástroj a rád s ním dělám

U icinga2 jsem byl z prvnu nadšený z Directoru, vše se nakliká, ale pak vlastně člověk ztratí přímou vazbu mezi monitorováním a konfigurací. Spousty textových souborů, které mohu generovat externě ze systému podle šablon zase také nejsou k zahození, dá se nad tím dobře dělat review, dobře to verzovat, sdílet. Je to na osobní preferenci.

Prometheus + Grafana jsou hodně nenažrané a problémové, grafana vše renderuje z primárních dat až na frontendu, pokud chci dlouhé časové osy musím ručně vytvářet vlastní metriky přes agregace rovnou na backendu, to je takové neomalené. Jako malé řešení a rychlý start to je ale poměrně solidní. Grafy na jejich marketplace jsou spíše pro inspiraci než pro použití.

Člověk pak zjistí, že umírající naogis a ve spolupráci s cacti je vlastně pořád dobrá a příjemná volba, zejména pokud to znáš. Řada těch nových nástrojů mají super lazy webové ui, takže nelze rychle scrollovat přes grafy, spotřebu prostředků větší než aplikace, které monitorují a na konfiguace je čím dál častěji vysvětlena na youtube místo v textu.

_mbily · « **Odpověď #13 kdy:** 08. 01. 2021, 16:26:08 »

Rovněž provozuji Icingu2 bez Directoru. Stejné důvody jako uvádí kolega, není nad to mít konfiguraci hezky v souborech. Icinga je pěkný nástroj v moderním kabátku. Sympatická je možnost doinstalovat různá rozšíření (mapičky pro šéfy, grafická znázornění závislostí apod.). Samotné monitorovací jádro ve srovnání s nagiosem ale považuji za poněkud tupé. Tam, kde nagios při podezření na problém pro jistotu ověří i host status dotyčného prvku (a tuším i nadřízeného), tam icinga dál nerušeně jede svým pravidelným rytmem kontrol služeb a hostů. Při dohledování sítových prvků nechcete dostat 20 zpráv o výpadku třeba telefonů, ale jedinou zprávu o výpadku switche, na který jsou připojeny. V icinze mi nezbylo než postupně zapnout tři různé nestandardní volby, kterými se tento problém jakž takž obejde, byť za cenu určitých kompromisů. Autor či autoři tento problém nějak nechtějí chápat a v debatním fóru na výtky většinou reagují tím, že topologicky vzdálenější prvky je třeba testovat méně často.

Pokud na něco stačí nagios, tak bych ho s klidným svědomím nasadil i dnes.

🇺🇦 cjohn · « **Odpověď #14 kdy:** 08. 01. 2021, 20:22:11 »

Zoznam monitorig nastrojov (zial uz par rokov neupdatnuty): https://github.com/monitoringsucks/tool-repos
Novsi: https://github.com/Enapiuz/awesome-monitoring

V zasade su hraci ktory maju viacmenej cely stack na monitoring, ako napr. InfluxDB (TICK stack: Telegraf, InfluxDB, Chronograf, Kapacitor; ELK stack: Beats, Logstash, Elasticsearch, Kibana, ...), pripadne ktori buduju svoj stack (taka Grafana uz nie je iba na vizualizaciu, ale Grafana labs ponuka toho uz viac - Loki, Tempo, ... a samozrejme Grafana ma asi najviac podporovanych time series databaz, z ktorych vies vizualizovat; mozno tak PowerBi je jej konkurenciou vo vizualizacii).

Na "konzervativnu" infrastrukturu budu dobre aj konzervativnejsie nastroje ako Nagios, Cacti a pod. Pokial to uz je progresivnejsie (kontajnery) tak by som cakal ze sa to vysklada z dostupnych novsich monitoring nastrojov - necakal by som ze jeden tool bude riesit vsetko.

Dohledový systém

Stepan Cirkl

Dohledový systém

Reklama

Exceptions

Re:Dohledový systém

⚫⚫⚫

Re:Dohledový systém

Exceptions

Re:Dohledový systém

⚫⚫⚫

Re:Dohledový systém

Reklama

Exceptions

Re:Dohledový systém

⚫⚫⚫

Re:Dohledový systém

Stepan Cirkl

Re:Dohledový systém

Václav Ovsik

Re:Dohledový systém

faha

Re:Dohledový systém

hexdump

Re:Dohledový systém

Pavel Rauš

Re:Dohledový systém

Exceptions

Re:Dohledový systém

_mbily

Re:Dohledový systém

🇺🇦 cjohn

Re:Dohledový systém