我正在尝试在 PyTorch 中为具有 3dCNN 和 LSTM 的模型运行训练脚本,但它在第一个或第二个纪元后突然停止。该脚本之前是为 3DCNN 编写的。
这可能是什么原因?
没有错误或警告消息。我已经检查了所有系统退出语句,但似乎没有一个对此负责。我已经调整了批量大小并进行了检查,以防出现内存短缺问题。
脚本有时会持续到第三个纪元,但有时会提前停止。如何找到导致这个看似随机问题的原因?
提前致谢!
我的猜测是你的内存不足了。有时,操作系统被配置为在系统接近耗尽时自动终止内存密集型进程,当发生这种情况时,不一定会在终端上打印错误消息(尽管这样的消息会记录在系统日志某处)。
请注意,批量大小会影响 GPU 内存使用情况,但不一定影响 CPU 内存使用情况。另请注意,随着必须在数据加载器进程之间复制更多数据,内存使用量可能会随着时间的推移而增加。
我调试这个问题的第一步是找到相关的系统日志,或者只是在程序运行时监视内存使用情况(例如使用
htop
或其他东西)。