如果数据是线性可分离的，则线性回归不会导致零样本误差

Question

我正在使用Yaser Abu-Mostafa等人的“从数据学习”教科书。我对线性回归一章中的以下陈述感到好奇，并想证明我的理解是正确的。

[谈论“伪逆”方法以获得“最佳权重”（最小化平方误差的赌注，即w_lin = (X^T X)^-1 X^T y

该语句是“线性回归权重向量是将输入X映射到输出y的尝试。但是，w_lin不能精确地产生y，但是会产生与X w_lin不同的估计y由于样本错误。

如果数据是线性可分离的，X w_lin会不会与y完全匹配（即样本内误差= 0）？也就是说，以上陈述仅是谈论不可线性分离的数据。

Answer 1

这里，'w_lin'对于所有数据点（（X，y）的所有对都不相同）。

线性回归模型在考虑所有数据点的情况下找到最佳的权重向量（或最佳的'w_lin'），使得X * w_lin对任何数据点给出的结果都非常接近'y'。

因此，除非所有数据点都在一条直线上，否则错误将不会为零。

Answer 2

除非打开这本书，否则社区可能不会获得完整的背景信息，因为您的帖子可能未涵盖本书作者所说的所有内容。但让我尝试回答。

[无论何时形成任何模型，都会使用某些常量，这些常量的值事先未知，但用于尽可能地拟合线/曲线。而且，这些方程式多次包含随机性元素。计算实际和预期输出时，采用随机值的变量会导致一些错误。