Pytorch 无法在使用 nvidia-tesla-t4 gpus 的 GKE Autopilot 集群上检测到 CUDA GPU

Question

如何让 Pytorch 在 GKE Autopilot 集群上使用 GPU？

我正在使用

nvcr.io/nvidia/pytorch:21.10-py3

(docs) 映像在具有一个 nvidia-tesla-t4 GPU 的 kubernetes pod 中运行容器。 GKE Autopilot 管理驱动程序安装 (docs)。

在容器内，我运行

nvidia-smi

并观察到存在有效的驱动程序版本 (470.161.03)、有效的 CUDA 版本 (11.4)，并且看到 Tesla T4 GPU 被检测为设备 0。

但是，当我使用 try 运行任何脚本（或仅使用 repl）时，

torch.cuda.is_available()

总是返回

False

。

torch.version.cuda

返回 11.4，torch.__version__ 返回 1.10.0a0+0aef44c。

有人可以建议如何调试吗？

cuda 版本匹配，并且 GPU 驱动程序似乎已正确安装。为什么 pytorch 无法识别启用 cuda 的 GPU？

Answer 1

问题是我的工作规范包含

CUDA_VISIBLE_DEVICES

环境变量的格式错误的值。

Answer 2

如何检查 CUDA_VISIBLE_DEVICES 环境变量的值？

我该如何纠正它的值？我是远程服务器和 Linux 的新手，也是此类内容的新手。