我知道可以使用梯度下降训练神经网络,我理解它是如何工作的。
最近,我偶然发现了其他训练算法:共轭梯度和准牛顿算法。我试图理解它们是如何工作的,但我能得到的唯一好的直觉是它们使用更高阶的导数。
我的问题如下:我提到的那些替代算法是否与反向传播过程根本不同,后者通过使用损失函数的梯度来调整权重?如果没有,是否存在训练神经网络的算法,该算法与反向传播机制根本不同?
谢谢
共轭梯度和准牛顿算法仍然是梯度下降算法。反向传播(或反向传播)是nothing more than a fancy name到梯度计算。
然而,backprop替代方案的原始问题非常重要。例如,最近的替代方案之一是equilibrium propagation(或简称eqprop)。