我在 GoogleCloud 工作,我创建了一个具有以下规格的虚拟机:
我使用这台机器来训练和测试不同的 RNN 模型,直到上周五(2023 年 9 月 8 日)它都工作正常,今天突然我的模型无法再使用 GPU。 如果我跑步
torch.cuda.is_available()
结果是假。有人可以给我一些提示,告诉我自从上次使用以来 GPU 不再可用会发生什么? 谢谢。
编辑: 我从周五开始就使用它,但周末我一直打开虚拟机,但从未使用过它。也许他们限制我的帐户是因为我占用了一台机器而不使用它?
编辑2: 我注意到命令:lshw -class display返回:
*-display UNCLAIMED
description: 3D controller
product: GA100 [A100 SXM4 40GB]
vendor: NVIDIA Corporation
physical id: 4
bus info: pci@0000:00:04.0
version: a1
width: 64 bits
clock: 33MHz
capabilities: msix pm bus_master cap_list
configuration: latency=0
resources: iomemory:200-1ff iomemory:300-2ff memory:80000000-80ffffff memory:2000000000-2fffffffff memory:3000000000-3001ffffff
网上冲浪我发现“显示未声明”意味着我没有合适的驱动程序。 这是正确的吗?我应该手动升级 GCloud 虚拟机上的驱动程序吗?
再次感谢