NVIDIA GPU 时间切片：使用 devicePlugin.config.name 为 gpu-operator 部署 Helm 失败

Question

我是 NVIDIA GPU 领域的新手。我正在尝试使用 gpu-operator 将 NVIDIA 的时间切片功能与 Kubernetes 结合使用。正如 here 所建议的那样，我按照说明创建了一个配置映射，其中副本为 2.

这是 configmap 定义：

apiVersion: v1
kind: ConfigMap
metadata:
  name: time-slicing-config
  namespace: gpu-operator
data:
    rtx-3070: |-
        version: v1
        sharing:
          timeSlicing:
            resources:
            - name: nvidia.com/gpu
              replicas: 2

以下是我执行的命令：

kubectl create -f time-slicing-config.yaml

helm install --wait gpu-operator -n gpu-operator --create-namespace nvidia/gpu-operator --set mig.strategy=none --set migManager.enabled=false --set devicePlugin.config.name=time-slicing-config

发布此消息，以下 POD 会卡在 Init:CrashLoopBackoff :

gpu-feature-discovery-8klpg
nvidia-device-plugin-daemonset-4mcwc
nvidia-operator-validator-86j6v

POD gpu-feature-discovery-8klpg 容器config-manager-init 的日志显示：

W0302 17:58:24.821579     139 client_config.go:608] Neither --kubeconfig nor --master was specified.  Using the inClusterConfig.  This might not work.                                                      
 time="2023-03-02T17:58:24Z" level=info msg="Waiting for change to 'nvidia.com/device-plugin.config' label"                                                                                                   
 time="2023-03-02T17:58:24Z" level=info msg="Label change detected: nvidia.com/device-plugin.config=nodename-1677691729"                                                                                   
 time="2023-03-02T17:58:24Z" level=info msg="Error: specified config nodename-1677691729 does not exist"

我不确定为什么它会查找配置 nodename-1677691729，这似乎是 helm 安装失败的原因。

如果有人能告诉我我做错了什么或缺少什么，我将不胜感激。

期待

执行 helm install 命令后，所有 POD 应处于运行状态。
我应该能够部署两个共享 GPU 的应用程序 POD。

NVIDIA GPU 时间切片：使用 devicePlugin.config.name 为 gpu-operator 部署 Helm 失败

问题描述投票：0回答：0

最新问题

NVIDIA GPU 时间切片：使用 devicePlugin.config.name 为 gpu-operator 部署 Helm 失败

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0