我的团队刚刚开始使用 Prometheus 来监控我们的 Django Web 应用程序 (django-prometheus)。与任何常见设置一样,指标会发布到“/metrics”端点,该端点由 Prometheus 抓取。
我们的问题是我们每天部署多次。在每次部署中,指标都会重置(所有计数器、仪表等都返回到零),因此我们审核的指标不会超过几个小时。
我想这是普罗米修斯的一个常见问题。超过几个小时的聚合指标可以吗?我应该采取什么措施来在管道中的任何点保留指标?
计数器预计会在应用程序中重置(即通过
/metrics
公开的内容)。诀窍在于,当您可视化计数器时,您可以使用像 rate
这样的函数。该函数知道计数器可以重置,因此它基本上假设当它突然看到计数器值低于前一个值时,它就被重置了。
另一方面,规格不会单调增加。仪表的典型用例是“已用内存”或“CPU 使用情况”。对于这些类型的指标,重新启动并不重要,因为它们不会“重置”。