如何让 Pytorch 在 GKE Autopilot 集群上使用 GPU?
我正在使用
nvcr.io/nvidia/pytorch:21.10-py3
(docs) 映像在具有一个 nvidia-tesla-t4 GPU 的 kubernetes pod 中运行容器。 GKE Autopilot 管理驱动程序安装 (docs)。
在容器内,我运行
nvidia-smi
并观察到存在有效的驱动程序版本 (470.161.03)、有效的 CUDA 版本 (11.4),并且看到 Tesla T4 GPU 被检测为设备 0。
但是,当我使用 try 运行任何脚本(或仅使用 repl)时,
torch.cuda.is_available()
总是返回 False
。 torch.version.cuda
返回 11.4,torch.__version__ 返回 1.10.0a0+0aef44c。
有人可以建议如何调试吗?
cuda 版本匹配,并且 GPU 驱动程序似乎已正确安装。为什么 pytorch 无法识别启用 cuda 的 GPU?
问题是我的工作规范包含
CUDA_VISIBLE_DEVICES
环境变量的格式错误的值。
如何检查 CUDA_VISIBLE_DEVICES 环境变量的值?
我该如何纠正它的值? 我是远程服务器和 Linux 的新手,也是此类内容的新手。