我试图了解这些 Adam 优化器和梯度下降优化器之间有什么区别,以及哪一个最适合在哪种情况下使用。我正在查看 TF 网站,但如果您知道哪里有更好且易于理解的方式解释这些内容,请告诉我?
AdamOptimizer 使用 Adam Optimizer 来更新学习率。与梯度下降相比,它是一种自适应方法,梯度下降为所有权重更新保持单一学习率,并且学习率不会改变。
Adam 相对于 GradientDescent 的优势在于使用梯度(均值)的运行平均值(动量)以及梯度平方的运行平均值。
没有哪个更好用,这完全取决于您的问题、网络和数据。但总的来说,Adam 已证明自己处于领先地位,并且是 DL 任务中最常用的工具之一,因为它实现了更好的结果和准确性指标。
基本上,Adam 比普通梯度下降更好,因为 Adam 比普通梯度下降有更多优点,正如我在下面解释的那样。
梯度下降(GD)(1847):
Adam(自适应矩估计)(2014):
是优化器,它可以通过自动使学习率适应参数来进行梯度下降,考虑过去和当前的梯度,比 EWA 的 Momentum(1964)更加重视新的梯度,通过减轻波动来加速收敛。
*备注:
的学习率不固定。
是 Momentum(1964) 和 RMSProp(2012) 的组合。
使用 Momentum(1964) 的 EWA 而不是 RMSProp(2012) 的。
的优点:
的缺点: