我使用不同的变量集开发了机器学习模型(XGBClassifier),两组的准确度得分都在 80% 左右。然而,一个模型使用 17 个变量,而另一个模型使用 18 个变量。我不确定选择哪种模型进行部署。以下是我正在考虑的一些因素:
可解释性:据我所知,为了便于解释,通常首选变量较少的简单模型。这是否意味着我应该青睐有 17 个变量的模型?
过度拟合:即使使用两个变量集具有相似的准确度分数,具有 18 个变量的模型是否会由于其较高的复杂性而更容易过度拟合?
计算效率:变量较少的模型 (17) 在训练和预测时间方面是否会更具计算效率?
特征重要性:如何评估具有 18 个变量的模型中附加变量的重要性?有没有办法确定它是否提供了有意义的见解或提高了性能?
数据质量:在做出此决定时我是否应该考虑数据集的质量和维度?添加额外变量是否存在任何风险,例如对噪声的敏感性增加或过度拟合?
信息:更多变量是否能为模型提供更多信息,从而做出更好的决策?
考虑:我参加的是Kaggle私人竞赛,所以评估考虑得更多。
考虑到这些因素,我应该如何在精度相似但变量数量不同的这两个集合之间做出选择?在这种情况下我应该遵循哪些最佳实践或指南?
任何见解或建议将不胜感激。谢谢!
“最好的模型就是没有模型”。如果你的问题可以在不使用模型的情况下解决,那么就用这种方式来解决,如果你不能 - 那么使用最简单的模型来满足你的目标。
可解释性:是的,您应该青睐具有 17 个变量的模型。
过度拟合:是的,较大的模型更容易过度拟合。不必要的变量不会带来任何实际好处。
计算效率:模型越小,计算效率越高。
特征重要性:参见这里如何在xgboost中获取特征重要性?
数据质量:在做出此决定时应考虑数据集的质量和维度。做出有利于验证性能的决定。
信息:一般来说,变量越多意味着学到的变量就越多。方差并不一定意味着信息。它也可能是噪音。噪声不能帮助模型做出决策。例如,在眼睛检测模型中,虹膜颜色可以被视为噪声,但对于虹膜识别生物识别系统则不是。
考虑:是的,评价考虑的比较多。