损失函数突然增加并停滞

Question

我目前正在从事一个深度学习项目，涉及训练 U-net 来执行图像配准。网络的目标是使图像（我称之为“移动图像”）变形以匹配另一图像（固定图像）的特征形状。

我已经运行了代码几次，看起来损失突然从一个纪元跳到另一个纪元，然后停止。这种情况是随机发生的，有时在第 24 个纪元，有时在第 60 个纪元，等等。

如何解决这个问题？最重要的是，首先是什么原因导致的？

我将提供更多关于下面发生的情况的图片：

Answer 1

我设法通过实施回调来降低 Plateau 上的学习率，使其发挥作用。为了完整起见，AMSGrad 优化器的实现也应该可行，但它取得了更糟糕的结果。

问题是由 Adam 如何处理越来越小的分母引起的，如此处

所建议的