NVIDIA GPU 时间切片:使用 devicePlugin.config.name 为 gpu-operator 部署 Helm 失败

问题描述 投票:0回答:0

我是 NVIDIA GPU 领域的新手。 我正在尝试使用 gpu-operator 将 NVIDIA 的时间切片功能与 Kubernetes 结合使用。正如 here 所建议的那样,我按照说明创建了一个配置映射,其中副本为 2.

这是 configmap 定义:

apiVersion: v1
kind: ConfigMap
metadata:
  name: time-slicing-config
  namespace: gpu-operator
data:
    rtx-3070: |-
        version: v1
        sharing:
          timeSlicing:
            resources:
            - name: nvidia.com/gpu
              replicas: 2

以下是我执行的命令:

kubectl create -f time-slicing-config.yaml

helm install --wait gpu-operator -n gpu-operator --create-namespace nvidia/gpu-operator --set mig.strategy=none --set migManager.enabled=false --set devicePlugin.config.name=time-slicing-config

发布此消息,以下 POD 会卡在 Init:CrashLoopBackoff :

  • gpu-feature-discovery-8klpg
  • nvidia-device-plugin-daemonset-4mcwc
  • nvidia-operator-validator-86j6v

POD gpu-feature-discovery-8klpg 容器config-manager-init 的日志显示:

W0302 17:58:24.821579     139 client_config.go:608] Neither --kubeconfig nor --master was specified.  Using the inClusterConfig.  This might not work.                                                      
 time="2023-03-02T17:58:24Z" level=info msg="Waiting for change to 'nvidia.com/device-plugin.config' label"                                                                                                   
 time="2023-03-02T17:58:24Z" level=info msg="Label change detected: nvidia.com/device-plugin.config=nodename-1677691729"                                                                                   
 time="2023-03-02T17:58:24Z" level=info msg="Error: specified config nodename-1677691729 does not exist"           

我不确定为什么它会查找配置 nodename-1677691729,这似乎是 helm 安装失败的原因。

如果有人能告诉我我做错了什么或缺少什么,我将不胜感激。

期待

  1. 执行 helm install 命令后,所有 POD 应处于运行状态。
  2. 我应该能够部署两个共享 GPU 的应用程序 POD。
kubernetes-helm nvidia nvidia-docker
© www.soinside.com 2019 - 2024. All rights reserved.