在工作 cuda 环境上训练某些模型时,您可能会收到错误
RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)
这是什么意思以及如何解决?
可能是形状错误的不完整报错:
nn.Linear 模块及其输入的尺寸不匹配,例如
x.shape == [a, b]
进入 nn.Linear(c, c, bias=False)
,其中 c 与 x 的形状不匹配,将导致此错误消息。
请参阅 Pytorch 论坛 对话。
我在使用 fairseq 时遇到此错误。我的 amazon linux 2 上安装的 Cuda 版本是 11.5,torch 版本是 1.13.1。我卸载了它并安装了 1.12.1 版本,这让我度过了这个错误阶段。
后来我也尝试用这种方式安装 torch 和 cuda,效果也很好: pip install torch==1.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116