我已经为数据集实现了随机森林,并且平衡了数据,我使用了 80-10-10、70-15-15、60-20-20 和 80-20 方法。我还使用了特征重要性,并使用了 41 个独立特征中的 10 个 imp 特征、15 个 imp 特征、24 个 imp 特征、34 个 imp 特征。上述所有方法的平均召回率为 95.8%,平均准确度为 96.6%,准确率为 97%。交叉验证召回率(我主要关注召回率)为 95.5%。 我用训练好的数据对训练数据本身进行预测,得到了 99.8%
我还使用了热图并放弃了 3 个高度相关的特征,但我得到了相同的分数 80-10-10(在热图之后)。
我的模型是否过度拟合?如何仍然检查是否过度拟合?
训练和测试之间存在 2% 到 3% 的差异并不是过度拟合的迹象,特别是在像随机森林这样的模型中,随机森林本质上非常强大,您的模型在训练数据和测试方面都表现出色。在这种情况下,模型表现良好。过度拟合当训练和测试之间存在很大差距时就会发生这种情况。如果您仍然想确定模型是否过度拟合,您可以检查决策树或逻辑回归等其他模型并比较分数。