Adam 优化器与梯度下降

问题描述 投票:0回答:2

我试图了解这些 Adam 优化器和梯度下降优化器之间有什么区别,以及哪一个最适合在哪种情况下使用。我正在查看 TF 网站,但如果您知道哪里有更好且易于理解的方式解释这些内容,请告诉我?

python-3.x tensorflow machine-learning neural-network deep-learning
2个回答
1
投票

AdamOptimizer 使用 Adam Optimizer 来更新学习率。与梯度下降相比,它是一种自适应方法,梯度下降为所有权重更新保持单一学习率,并且学习率不会改变。

Adam 相对于 GradientDescent 的优势在于使用梯度(均值)的运行平均值(动量)以及梯度平方的运行平均值。

没有哪个更好用,这完全取决于您的问题、网络和数据。但总的来说,Adam 已证明自己处于领先地位,并且是 DL 任务中最常用的工具之一,因为它实现了更好的结果和准确性指标。


0
投票

基本上,Adam 比普通梯度下降更好,因为 Adam 比普通梯度下降有更多优点,正如我在下面解释的那样。

梯度下降(GD)(1847)

  • 是执行基本梯度下降的优化器,没有特殊功能。 *学习率是固定的。
  • 也可以称为CGD(经典梯度下降)或普通梯度下降(VGD)。
  • 的优点:
    • 很简单。
    • 它基于其他优化器。
  • 的缺点:
    • 它没有什么特殊功能。

Adam(自适应矩估计)(2014)

  • 是优化器,它可以通过自动使学习率适应参数来进行梯度下降,考虑过去和当前的梯度,比 EWA 的 Momentum(1964)更加重视新的梯度,通过减轻波动来加速收敛。

    *备注:

    • EWA(指数加权平均)是平滑趋势的算法(以减轻趋势的波动),考虑过去和当前的值,更加重视新值。
    • EWA 也称为 EWMA(指数加权移动平均线)。
  • 的学习率不固定。

  • 是 Momentum(1964) 和 RMSProp(2012) 的组合。

  • 使用 Momentum(1964) 的 EWA 而不是 RMSProp(2012) 的。

  • 的优点:

    • 它自动使学习率适应参数。
    • 它使用 EWA。
    • 它逃脱了局部极小值和鞍点。
    • 它创建了一个准确的模型。
    • 它可以减轻波动。
    • 它可以减轻超调。
    • 它加速了收敛。
  • 的缺点:

    • ...
© www.soinside.com 2019 - 2024. All rights reserved.