PyTorch 训练脚本突然停止,没有任何警告或错误?

问题描述 投票:0回答:1

我正在尝试在 PyTorch 中为具有 3dCNN 和 LSTM 的模型运行训练脚本,但它在第一个或第二个纪元后突然停止。该脚本之前是为 3DCNN 编写的。

这可能是什么原因?

没有错误或警告消息。我已经检查了所有系统退出语句,但似乎没有一个对此负责。我已经调整了批量大小并进行了检查,以防出现内存短缺问题。

脚本有时会持续到第三个纪元,但有时会提前停止。如何找到导致这个看似随机问题的原因?

提前致谢!

python deep-learning pytorch
1个回答
0
投票

我的猜测是你的内存不足了。有时,操作系统被配置为在系统接近耗尽时自动终止内存密集型进程,当发生这种情况时,不一定会在终端上打印错误消息(尽管这样的消息会记录在系统日志某处)。

请注意,批量大小会影响 GPU 内存使用情况,但不一定影响 CPU 内存使用情况。另请注意,随着必须在数据加载器进程之间复制更多数据,内存使用量可能会随着时间的推移而增加。

我调试这个问题的第一步是找到相关的系统日志,或者只是在程序运行时监视内存使用情况(例如使用

htop
或其他东西)。

© www.soinside.com 2019 - 2024. All rights reserved.