为什么XGB模型没有在验证数据集上提供输出,但在训练时效果更好

问题描述 投票:0回答:1

目前,我正在一个项目中,目标是找到更有可能购买您的项目的客户。它是一个分类模型(0&1)。我创建了同时包含RF和XGB并计算了收益得分的模型(数据不平衡)。我的训练数据集的前三位十分之三的客户不超过80%,但是当我在验证数据集上运行该模型时,它降到了56-在两种模式下均为59%。

说我有20个客户,并且为了更好的准确性,我将它们聚类,现在模型在聚类1客户上给出了理想的结果,但是在聚类2客户上表现不佳。

任何建议进行相同的调整。

r machine-learning random-forest logistic-regression xgboost
1个回答
0
投票

首先,如果您的训练和验证集之间存在很高的准确性差异,则您的模型可能会存在偏差。您可能需要使用更复杂的模型进行此培训。

第二,由于数据集的不平衡,您可能想对训练集重新采样。您可以使用欠采样或过采样技术(SMOTE)。

第三,您可能需要使用正确的评估指标,例如精度,召回率和F1。

最后,在训练/验证/测试拆分中,您需要注意数据集的分布。因此,您可以使用stratified关键字来解决此问题。

© www.soinside.com 2019 - 2024. All rights reserved.