带有 PCP + Redis 的 Grafana 收集和存储使用 RHEL Ansible 角色指标设置的指标 - NVIDIA 的一些指标未显示在 Grafana 中

问题描述 投票:0回答:0

我目前正在使用 Ansible Role Metrics 来收集性能指标。它使用 performance co pilot 和 redis 在 Grafana 上可视化这些指标。我遇到的问题特别是在我监控的某些系统中的 NVIDIA GPU 上收集的指标。我已经设置了 Ansible 角色以仅在安装了 nvidia GPU 的系统上安装和启用 nvidia pmda。我在该特定系统的 /var/lib/pcp/config/pmlogger 文件中有一个指标列表,如下所示:

        nvidia.gpuid
        nvidia.temperature
        nvidia.fanspeed
        nvidia.perfstate
        nvidia.memfree
        nvidia.carduuid
        nvidia.energy
        nvidia.power
        nvidia.proc.samples
        nvidia.proc.memused
        nvidia.proc.memaccum
        nvidia.proc.gpuactive
        nvidia.proc.memactive
        nvidia.proc.time
        nvidia.proc.running
        nvidia.proc.all.samples
        nvidia.proc.all.memused
        nvidia.proc.all.memaccum
        nvidia.proc.all.gpuactive
        nvidia.proc.all.memactive
        nvidia.proc.all.time
        nvidia.proc.all.running
        nvidia.proc.all.gpulist
        nvidia.proc.all.ngpus
        nvidia.proc.compute.samples
        nvidia.proc.compute.memused
        nvidia.proc.compute.memaccum
        nvidia.proc.compute.gpuactive
        nvidia.proc.compute.memactive
        nvidia.proc.compute.time
        nvidia.proc.compute.running
        nvidia.proc.compute.gpulist
        nvidia.proc.compute.ngpus
        nvidia.proc.graphics.samples
        nvidia.proc.graphics.memused
        nvidia.proc.graphics.memaccum
        nvidia.proc.graphics.gpuactive
        nvidia.proc.graphics.memactive
        nvidia.proc.graphics.time
        nvidia.proc.graphics.running
        nvidia.proc.graphics.gpulist
        nvidia.proc.graphics.ngpus

问题是当我去查询 redis pcp 数据源时,只有少数这些指标会显示为查询选项。基本上,除了 nvidia 之外,我对任何其他指标都没有问题。有谁知道这种情况发生或对为什么会发生这种情况有任何建议?

我已经多次检查 pmda 是否正在工作并已启用,并且一切似乎都在 pcp 正常工作时进行了检查。

redis grafana nvidia metrics
© www.soinside.com 2019 - 2024. All rights reserved.