netdata jako label do prometheus posílá container id, což při každém restartu containeru udělá celý nový shard s metrikami (roste to i na malém prostředí do desítek GB místa na disku), je potřeba ty labely vyloučit, to je trocha práce, tj. není to zrovna tak snadné.
Každopádně těch cest moc nemáš, dnes vše jede na prometheusu, zvedne se ti proti netdatě cpu, disk, metriky budou horší. S ELK si také nepomůžeš.
Je to vždy u projektů velká věc, jak to vlastně udělat. ELK není špatný když máš peníze/hw, prometheus (raději victoriametrics) znamená poměrně dost ruční práce a ladění, ale pak funguje dobře, problém ze mě jsou dlouhé intervaly sběru a nemožnost zajistit integritu (nevíš, jestli ti něco nechybí). Občas funguje dobře i cAdvisor nebo sysdig, ale blbě se to rozšiřuje. Stejně tak někdy je možné použít i coroot.com.
Pak tady je celá řada placených nástrojů jako splunk, dynatrace, datadog, ale tam s pracností jsi dost nahoře.