为什么拦截参数会在意外方向上增加？

Question

我正在进行2次梯度下降迭代（初始条件：learning_rate = 0.1，[w0，w1] = [0,0]）以找到适合简单的线性模型的2个参数（y_hat = w0 + w1 * x）数据集，x = [0,1,2,3,4]和y = [0,2,3,8,17]。通过使用闭合公式，我发现w0 = -2且w1 = 4.对于梯度下降的前2次迭代，我发现w0 = 0.6，w0 = 0.74。然而，我认为，如果在梯度下降中没有发生过冲，我应该期望在给定梯度下降的初始条件和从闭合形式解得到的答案的每一次迭代中w0减小。如果误差函数是凸函数，为什么会出现这种情况？

Answer 1

你实际上误解了梯度下降。梯度下降并不是说在每次迭代时所有权重都将朝着各自的最佳值移动，而是它的全部意义在于，如果提供准确的超参数，则总是朝着最低成本移动。在你使用[0,0]初始化权重的情况下，没有alpha值会拒绝上述效果，因为当w0从0.6变为0.74（考虑这是一个向量）并且w1从2移动到2.68（考虑到这一点）另一个矢量）然后得到的矢量是这样的，它以最陡的下降向下移动，这就是GD所说的，这是权重向下移动到成本函数的集合方向。

您可以通过绘制成本图来验证这一点，并且在第二次迭代之后，b值确实向-2移动，因为在该方向上的第二次迭代之后，w0是最陡的。

下图是不同迭代时w0的值，x_axis = w0和y_axis = iteration_no