152
« kdy: 17. 09. 2014, 15:48:08 »
Mirek Prýmek: Nie je to uplne tak...
Centraly cluster je uplne normalne pomenovanie niekolkych serverov pracujucich z pohladu inych systemov ako jeden system. V tomto pripade tym myslim 2 fyzicke stroje v dvoch datacentrach [Bratislava a Nurnberg] ktore mienim cisto cez HB prevadzkovat v active/passive alebo active/active al to dany monitorovaci system bude umoznovat.
1) VSETKY systemy co som evaluoval [Nagios [omd], Zabbix, Zenoss, OpsView] dokazu to co chcem. Rozdiely su v konfiguracii, pripadne v moduloch na grafy... Tak ako Zabbix grafuje snad vsetko, v nagiose je to v podstate nadalej praca pre nejaky addon... Ci uz bezne RRD alebo som videl aj rozne exoticke nadstavby co drzali udaje v relacnych db.
Tu nejde o to ktory system splna poziadavky... Ale o SUBJEKTIVNE nazory preco vybrat nejaky konkretny z nich. Kto je spokojny s tym co ma, a kto by najradsej migroval na nieco ine.
2) Chcem zbierat data mozno z 10 GNU/Linuxov... Kludne agentom. A k tomu potrebujem zbierat data vyhradne cez SNMP z povedzme 20 az 100 boxov (specializovane appliance). Frekvencia na urovni kazdych 5 minut je viac nez dostacujuca... Ide hlavne o ZIJE/NEZIJE a PERFORMANCE data.
Davat to do grafov ma vzdy zmysel. Neexistuje nic lepsie na capacity management ako sledovat trendy vyvoja vytazenia... Ak budem mat v grafe aj statistiku ZIJE/NEZIJE vo forme akehosi percentualneho grafu availability sluzieb za dane obdobie, o to lepsie.
Toto vsak dokaze kazdy z hore uvedenych monitoring systemov... Akurat s rozdielonou namahou na strane admina.
Skalovatelnost k 100 - 1000 systemom do buducnosti je podstatna, ale ak sa nemylim, kazdy z hore uvedenych systemov ma danu vec nejako vyriesenu. Ci uz vo forme niekolkych samostatnych instancii + agregator dat, alebo dokazu pracovat v kaejsi paralelnej forme. Nemyslim si ze by som narazil na neriesitelny bottleneck pri ktoromkolvek z nich.
4) To je nieco co este neviem uplne odhadnut. Predtym som sa tym nezaoberal. V danom momente riesim primitivity typu zije/nezije kontrolou navratovej hodnoty a povedzme dafinovanie range hodnot pre urcite metriky (disk space viac ako 70% used, ukaz warning, viac ako 85% used, triggeruj nejaky kontakt/skript)
5) Pravdaze nie je problem tahat data z snmp, zatial mi stacil bash, snmpwalk, grep a awk.
Zmysel tejto temy je zistit kto co pouziva a ci je s tym spokojny. V danom momente mi nie je jasne ci chcem mat radsej akesi API na pridavanie novych targetov, alebo ci si radsej vygenerujem textovy config a reloadnem service... Flatfile my boli vzdy sympaticke, otazka je aky mess z toho vznikne po urcitej dobe a velkom mnozstve zariadeni. Puppet tiez riesi len cast problemu... Generuje config, kvalita vsak zavisi od admina a jeho schopnosti/skusenosti.
Nazorov je na oboch stranach prilis vela a casto sa navzajom vyvracaju. Ja nie som schopny posudit pravdu. Priklad moze byt flapping detection Nagiosu vs. Zabbix. Zabbix-aci hovoria ze false possitives su priamo sposobene debilnou konfiguiraciou, pricom clanky co vyzdvihuju Nagios popisuju akusi schopnost inteligentnej flap detection ktora setri adminov cas v pripade ze navratova hodnota kolise okolo thresholdu.
Zabbix ludia vyzdvihuju jeho vlastnost pchat kazdy udaj do grafu, nagiosaci zase vyzdvihuju jeho flexibilitu a neviazanie sa na ziaden grafovaci nastroj... A takto to ide do nekonecna. Zaujimaju ma skor osobne nazory/skusenosti.