我正在尝试根据 CPU 利用率百分比使用 Datadog 为我们的服务器构建警报。 目前我正在努力解决这个问题,根据阈值创建警报会很棘手,因为并非所有服务器都具有相同的规格。 我已经尝试过一些公式,但它们没有给出好的结果。
有人遇到过同样的情况吗?
谢谢!
如果您使用 CPU 使用率百分比阈值警报,则不同的 CPU 规格不应成为问题。
您想要的指标是
system.cpu.system
转到新监视器 > 指标并指定阈值类型。然后将警告/警报阈值设置为您想要触发的任何 CPU%。比如 CPU 使用率 > 95% 持续 5 分钟。
由于您的系统具有不同的 CPU 分配,因此最好使用复合监视器。这是我和许多客户一起做过的事情。
监视器 1 将是静态阈值为 X% 的标准指标监视器,监视器 2 将是异常监视器。然后,创建一个复合监视器,显示
monitor1 && monitor2
,这样,只有当 CPU 利用率高于阈值并且基于 Datadog 中已有的历史数据出现异常时,您才会收到警报。
对于持续运行较高 CPU 的系统,最好使用新的或现有的标签对这些系统进行分组,并创建一个对变化稍微敏感的单独的异常监视器,因为这些系统的 CPU 通常高于其他系统,并且您可能会由于原始数据中的标准偏差范围未正确评估而不会收到警报。