我在普罗米修斯中有来自两个不同目标虚拟机的连续时间序列数据。
当我使用“sum by(topic)”时,该系列中要么丢失,要么有间隙。
例如:
sum by(topic) (kafka_consumer_fetch_manager_records_lag{application="abc123", topic="xyz"} )
如果我只对 1 个目标虚拟机进行求和,则一切正常(例如,将“instance=abc123”添加到查询中)。当我们尝试总结两种服务之间存在的差距时。
有什么想法吗?
看起来问题是某些时间序列中有 NaN。当 Prometheus sum 的值为 NaN 时,它会给出 NaN。
答案是在查询中添加 >0,所以:
sum by(topic) (kafka_consumer_fetch_manager_records_lag{application="abc123", topic="xyz"} >0 )
在另一篇文章中找到答案: