我想知道如何在初始化时增加nvidia-docker的超时限制。
当我的4 GPU服务器中有2个或更多的人忙时,我总是会收到超时错误:
nvidia-container-cli:初始化错误:驱动程序错误:超时
启动docker时:
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
非常感谢您的帮助!
我不知道如何更改超时,尽管您可以通过预先启动nvidia-persistenced
来解决此问题,这将初始化GPU设备并保持打开状态,因此驱动程序在docker启动期间不必经历该过程。
这不是问题的确切答案,而只是克服超时错误的解决方法。
在启动docker之前,运行nvidia-smi
以查看GPU上正在运行的进程。禁用以下进程:
kill -TSTP [pid]
然后启动docker。完成后,继续使用以下禁用的进程:
kill -CONT [pid]