神经网络中最后一层激活的梯度计算的差异

问题描述 投票:0回答:0

我目前正致力于使用 sigmoid 激活函数和二元交叉熵成本函数实现神经网络。在我的实现中,我注意到最后一层激活的梯度计算与其他层不同。我正在为这种差异寻求明确的解释或证据。

具体来说,我很好奇为什么最后一层的梯度计算不同,是否受成本函数和激活函数选择的影响。此外,我希望深入了解为什么我们不能简单地使用公式

dAL = d(cost) / d(AL) = d(cost) / d(ZL) * d(ZL) / d(AL)
来计算所有层中的梯度。所以我们不想使用这个
np.dot(W.T, dZ)
找到 da_prev,我们使用不同的方法计算它。我很想知道这个选择背后的理由。

对这些梯度计算背后的原因的任何解释、证明或见解将不胜感激。感谢您的帮助和指导

deep-learning neural-network artificial-intelligence activation-function
© www.soinside.com 2019 - 2024. All rights reserved.