我是 NVIDIA GPU 领域的新手。 我正在尝试使用 gpu-operator 将 NVIDIA 的时间切片功能与 Kubernetes 结合使用。正如 here 所建议的那样,我按照说明创建了一个配置映射,其中副本为 2.
这是 configmap 定义:
apiVersion: v1
kind: ConfigMap
metadata:
name: time-slicing-config
namespace: gpu-operator
data:
rtx-3070: |-
version: v1
sharing:
timeSlicing:
resources:
- name: nvidia.com/gpu
replicas: 2
以下是我执行的命令:
kubectl create -f time-slicing-config.yaml
helm install --wait gpu-operator -n gpu-operator --create-namespace nvidia/gpu-operator --set mig.strategy=none --set migManager.enabled=false --set devicePlugin.config.name=time-slicing-config
发布此消息,以下 POD 会卡在 Init:CrashLoopBackoff :
POD gpu-feature-discovery-8klpg 容器config-manager-init 的日志显示:
W0302 17:58:24.821579 139 client_config.go:608] Neither --kubeconfig nor --master was specified. Using the inClusterConfig. This might not work.
time="2023-03-02T17:58:24Z" level=info msg="Waiting for change to 'nvidia.com/device-plugin.config' label"
time="2023-03-02T17:58:24Z" level=info msg="Label change detected: nvidia.com/device-plugin.config=nodename-1677691729"
time="2023-03-02T17:58:24Z" level=info msg="Error: specified config nodename-1677691729 does not exist"
我不确定为什么它会查找配置 nodename-1677691729,这似乎是 helm 安装失败的原因。
如果有人能告诉我我做错了什么或缺少什么,我将不胜感激。
期待