我一直在构建一个包含大约 150 行数据的线性回归模型。我检查了参数与目标变量的相关性,并尝试仅保留它们,因为我的数据较少并且想要一个简单的线性模型。
MAE 和 MAPE 真的很不错:
火车 MAPE:3.3%,Val MAPE:4.9%
训练数据和验证数据图看起来也足够不错:
但是,我的:
训练 R2:0.63,验证 R2:-0.37
我搜索了许多资源,询问了 Google Gemini ChatGPT,得到了类似的答复,但我仍然无法弄清楚为什么我的 R2 在其他一切似乎都不错的情况下却变得如此奇怪。我们可以使用这个模型在现实世界中实现或推断吗?
请注意:我还尝试过随机森林、LightGBM、XGBoost 和许多其他线性和 bagging/boosting 模型,结果几乎相似。图表看起来不错,MAE、MAPE 看起来不错,但 R2 不在正常范围内。
通常,负 R-sq 值意味着模型预测比简单使用平均值更糟糕,但我怀疑代码本身存在问题。如果您可以提供一个代码来显示您是如何计算的,我也许可以提供更多帮助。