我有一个 Kubernetes 集群设置,想使用 Datadog 来监控集群。我想设置一个监视器,以便在容器/pod 陷入 CrashLoopBackOff 状态时向我发出警报。
我该怎么做?
这有点违反直觉,但您需要寻找未由 pod.ready 标记的 pod。 示例在监视器的默认命名空间中查找集群 my-cluster 上失败的 Pod 数量:
exclude_null(sum:kubernetes_state.pod.ready{condition:false,kube_cluster_name:my-cluster,kube_namespace:default,!pod_phase:succeeded})