两个单一模型还是一个多类模型?

问题描述 投票:0回答:1

我需要预测下一个目标事件 - 购买两个价格类别的汽车(例如,高档和中档)。训练目标的数量大致相同(假设每个价格类别有 10,000 次购买)。我在这里看到两种训练机器学习模型的方法。第一个是多类模型。第二个是两个单独的模型来预测每个细分市场。您认为应该采取哪种方法?为什么?我想以多类模型为基础,你能列出哪些优点和缺点?

machine-learning data-science classification multiclass-classification
1个回答
0
投票

TLDR:一种多类模型更容易维护,可以学习更通用的模式,并且没有相互冲突的预测。我推荐多类模型,例如 RandomForest 甚至更好的 PairwiseDifferenceLearningClassifier

多类模型方法

优点:

  1. 更容易维护:考虑数据科学管道(训练数据选择、超参数优化、解释、部署、维护),一个模型当然要容易得多。
  2. 更通用的模式:多类模型与单独模型一样高效。另一方面,优化单独的模型可能会导致过度拟合。
  3. 没有冲突的预测: 使用单独的模型,每个模型都可以预测特定的答案,如果预测不冲突,那么解释可能是......然后建议使用一致的模型。

缺点:

  1. 模型复杂性:只有少数相当复杂的模型提供多类分类训练。不过,如果您需要良好的准确性,最好使用此类模型。
  2. 类不平衡处理:如果存在任何不平衡,模型可能对于代表性较少的类表现不佳。在这种情况下考虑使用类别权重。

推荐解决方案:成对差分学习(PDL)分类器

为了解决这两种方法的复杂性和局限性,我建议考虑PDL 分类器。 PDL 分类器是一种元学习器,利用实例之间的成对比较,将多类问题简化为一个二元问题。

© www.soinside.com 2019 - 2024. All rights reserved.