我目前正在使用 Ansible Role Metrics 来收集性能指标。它使用 performance co pilot 和 redis 在 Grafana 上可视化这些指标。我遇到的问题特别是在我监控的某些系统中的 NVIDIA GPU 上收集的指标。我已经设置了 Ansible 角色以仅在安装了 nvidia GPU 的系统上安装和启用 nvidia pmda。我在该特定系统的 /var/lib/pcp/config/pmlogger 文件中有一个指标列表,如下所示:
nvidia.gpuid
nvidia.temperature
nvidia.fanspeed
nvidia.perfstate
nvidia.memfree
nvidia.carduuid
nvidia.energy
nvidia.power
nvidia.proc.samples
nvidia.proc.memused
nvidia.proc.memaccum
nvidia.proc.gpuactive
nvidia.proc.memactive
nvidia.proc.time
nvidia.proc.running
nvidia.proc.all.samples
nvidia.proc.all.memused
nvidia.proc.all.memaccum
nvidia.proc.all.gpuactive
nvidia.proc.all.memactive
nvidia.proc.all.time
nvidia.proc.all.running
nvidia.proc.all.gpulist
nvidia.proc.all.ngpus
nvidia.proc.compute.samples
nvidia.proc.compute.memused
nvidia.proc.compute.memaccum
nvidia.proc.compute.gpuactive
nvidia.proc.compute.memactive
nvidia.proc.compute.time
nvidia.proc.compute.running
nvidia.proc.compute.gpulist
nvidia.proc.compute.ngpus
nvidia.proc.graphics.samples
nvidia.proc.graphics.memused
nvidia.proc.graphics.memaccum
nvidia.proc.graphics.gpuactive
nvidia.proc.graphics.memactive
nvidia.proc.graphics.time
nvidia.proc.graphics.running
nvidia.proc.graphics.gpulist
nvidia.proc.graphics.ngpus
问题是当我去查询 redis pcp 数据源时,只有少数这些指标会显示为查询选项。基本上,除了 nvidia 之外,我对任何其他指标都没有问题。有谁知道这种情况发生或对为什么会发生这种情况有任何建议?
我已经多次检查 pmda 是否正在工作并已启用,并且一切似乎都在 pcp 正常工作时进行了检查。