我已经建立了线性回归模型,在训练和验证集上我得到了两个不同的分数,这是什么意思?这是我得到的结果火车数据得分:0.8802644749581061验证数据得分:0.7124061878004602
注意:-我尚未使用我的测试仪。
我建立了一个ML模型(线性回归),然后检查了训练部分和验证部分的分数:
reg = LinearRegression().fit(X_train, y_train)
reg.score(X_train, y_train)
这是这行代码的内容:
火车数据:0.8802644749581061
验证数据:0.7124061878004602
从scikit-learn网站,我们可以知道该分数:
返回预测的确定系数R ^ 2。
系数R ^ 2定义为(1-u / v),其中u是平方的残差和((y_true-y_pred)** 2).sum()和v是平方的总和((( y_true-y_true.mean())** 2).sum()。可能的最高得分为1.0,并且可能为负(因为该模型可能会更差)。不管输入特征如何,始终预测y的期望值的恒定模型将得到0.0的R ^ 2分数。]
在您的情况下,训练数据的R ^ 2值高于验证数据,这意味着模型过度拟合。