我正在自己的专用远程服务器上使用 PyTorch 训练 ML 模型,使用 Jupyter 作为我的 IDE。
大约 120 个 epoch(训练后约 2 小时),Jupyter cell 停止更新输出,但状态栏仍然显示内核状态为 busy,并且 SSH 连接仍然处于活动状态。
我想也许训练仍在继续,但输出单元停止更新,因为它包含太多输出。为了验证这个假设,昨晚我让 Jupyter 运行了大约 7 个小时。当我醒来时,它已经在 123 个 epoch 处停止更新输出单元,当我终止执行并打印出当前的 epoch 数时,它只达到 126 个 epoch。
知道是什么原因造成的吗?
您能否提供您正在运行的代码的可重现的最小示例?
最重要的是,我建议: