Pytorch 无法在使用 nvidia-tesla-t4 gpus 的 GKE Autopilot 集群上检测到 CUDA GPU

问题描述 投票:0回答:2

如何让 Pytorch 在 GKE Autopilot 集群上使用 GPU?

我正在使用

nvcr.io/nvidia/pytorch:21.10-py3
(docs) 映像在具有一个 nvidia-tesla-t4 GPU 的 kubernetes pod 中运行容器。 GKE Autopilot 管理驱动程序安装 (docs)。

在容器内,我运行

nvidia-smi
并观察到存在有效的驱动程序版本 (470.161.03)、有效的 CUDA 版本 (11.4),并且看到 Tesla T4 GPU 被检测为设备 0。

但是,当我使用 try 运行任何脚本(或仅使用 repl)时,

torch.cuda.is_available()
总是返回
False
torch.version.cuda
返回 11.4,torch.__version__ 返回 1.10.0a0+0aef44c。

有人可以建议如何调试吗?

cuda 版本匹配,并且 GPU 驱动程序似乎已正确安装。为什么 pytorch 无法识别启用 cuda 的 GPU?

installation pytorch google-kubernetes-engine autopilot
2个回答
0
投票

问题是我的工作规范包含

CUDA_VISIBLE_DEVICES
环境变量的格式错误的值。


0
投票

如何检查 CUDA_VISIBLE_DEVICES 环境变量的值?

我该如何纠正它的值? 我是远程服务器和 Linux 的新手,也是此类内容的新手。

© www.soinside.com 2019 - 2024. All rights reserved.