目前,我正在一个项目中,目标是找到更有可能购买您的项目的客户。它是一个分类模型(0&1)。我创建了同时包含RF和XGB并计算了收益得分的模型(数据不平衡)。我的训练数据集的前三位十分之三的客户不超过80%,但是当我在验证数据集上运行该模型时,它降到了56-在两种模式下均为59%。
说我有20个客户,并且为了更好的准确性,我将它们聚类,现在模型在聚类1客户上给出了理想的结果,但是在聚类2客户上表现不佳。
任何建议进行相同的调整。
首先,如果您的训练和验证集之间存在很高的准确性差异,则您的模型可能会存在偏差。您可能需要使用更复杂的模型进行此培训。
第二,由于数据集的不平衡,您可能想对训练集重新采样。您可以使用欠采样或过采样技术(SMOTE
)。
第三,您可能需要使用正确的评估指标,例如精度,召回率和F1。
最后,在训练/验证/测试拆分中,您需要注意数据集的分布。因此,您可以使用stratified
关键字来解决此问题。