神经网络中最后一层激活的梯度计算的差异

问题描述投票：0回答：0

我目前正致力于使用 sigmoid 激活函数和二元交叉熵成本函数实现神经网络。在我的实现中，我注意到最后一层激活的梯度计算与其他层不同。我正在为这种差异寻求明确的解释或证据。

具体来说，我很好奇为什么最后一层的梯度计算不同，是否受成本函数和激活函数选择的影响。此外，我希望深入了解为什么我们不能简单地使用公式

dAL = d(cost) / d(AL) = d(cost) / d(ZL) * d(ZL) / d(AL)

来计算所有层中的梯度。所以我们不想使用这个

np.dot(W.T, dZ)

找到 da_prev，我们使用不同的方法计算它。我很想知道这个选择背后的理由。

对这些梯度计算背后的原因的任何解释、证明或见解将不胜感激。感谢您的帮助和指导

deep-learning

neural-network

artificial-intelligence

activation-function