小数据集上的 r 平方分数变化极大

问题描述 投票:0回答:1

我目前正处于回归任务之中。我们收到了一个非常小的数据集,由 47 个数据点组成,具有 2 个特征和 1 个目标值。看起来像这样:

N level,species,Plant Weight(g)
L,brownii,0.3008
L,brownii,0.3288
M,brownii,0.3304
M,brownii,0.388
M,brownii,0.406
H,brownii,0.3955
H,brownii,0.3797
H,brownii,0.2962

每个植物有 3L、3M 和 3H(因此每个植物有 9 个)。任务是获得最佳 r 平方分数,但有 6 个数据点被保留(从我得到的数据集中删除了 6 个数据点,这意味着对于每朵花(有 6 个),L、M 或 H 中的一个数据点被删除。正如您在示例 abvoe 中看到的,“brownii”中的一个 L 被删除了,我尝试了几种回归算法,尝试了 KFolds、LeaveOneOut 并手动分割数据集,但似乎数据集太小,以至于取决于测试。数据,结果变化很大。在某些测试数据上我可以得到 0.95 的分数,但在某些测试数据上我可能只能得到 0.2。

有什么方法可以实现一致性吗?

machine-learning scikit-learn regression
1个回答
0
投票
您需要将所有预测合并到一组中并计算该组上的 R2。小测试集上的 R2 可能无法给出足够的结果。

© www.soinside.com 2019 - 2024. All rights reserved.