线性回归:使用ML而不是MSE之间的模型是否存在差异?

问题描述 投票:-1回答:2

我们知道构建机器学习算法需要4件事:

  1. 数据集
  2. 一个模型
  3. 成本函数
  4. 优化程序

以线性回归(y = m*x +q)为例,我们有两种最常见的方法来找到最佳参数:使用MLMSE作为成本函数。

我们使用ML来推断数据是Gaussian-distributed

这个假设也是模型的一部分吗?

它不是,为什么?它是成本函数的一部分吗?

在这种情况下,我无法看到模型的“边缘”。

machine-learning linear-regression
2个回答
0
投票

这个假设也是模型的一部分吗?

是的。不同损失函数的思想源于问题的本质,因此也就是模型的本质。

根据定义,MSE计算误差平方的平均值(误差意味着实际y和预测的y之间的差异),如果数据不是高斯分布的话,它又会高。想象一下数据中的一些极值,线斜率会发生什么,从而导致剩余误差?

linear_regression_with_and_without_outlier

值得一提的是线性回归的假设:

  1. 线性关系
  2. 多元正态
  3. 没有或很少多重共线性
  4. 没有自动关联
  5. 方差齐性

如果不是,为什么?它是成本函数的一部分吗?

到目前为止,我已经看到,这个假设与成本函数本身并不直接相关,而是与模型本身相关 - 如上所述。

例如,支持向量机的想法是分类。那就是找到一条线/超平面(在多维空间中分离出类),因此它的成本函数是Hinge Loss到分类的“最大边际”。另一方面,Logistic回归使用Log-Loss(与交叉熵相关),因为模型是二元的,并且对输出的概率(0或1)起作用。而这样的例子不胜枚举...


0
投票

数据是高斯分布的假设是模型的一部分,在这种意义上,对于高斯分布数据,给定模型参数,最小均方误差也产生数据的maximum liklelihood solution。 (通用证明,如果您有兴趣,可以查阅)。

所以你可以说高斯分布假设证明最小二乘法的选择是损失函数。

© www.soinside.com 2019 - 2024. All rights reserved.