不平衡数据集的采样率

问题描述 投票:-1回答:1

我有一个不平衡的数据集,有两个类(+1-1)。积极因素仅为数据集的7%。

我想使用决策树进行分类。我已经尝试将负片下采样到:

  1. 同样大小的积极因素
  2. 积极的大小的两倍或三倍。

对于他们所有人来说,我得到了几乎相同的精确度,但是对于第一个样本(正数与负数相同的负数),对正数的回忆要好得多。但我觉得我在这里遗漏了一些东西,所以这次抽样有什么不好?

random machine-learning statistics classification statistical-sampling
1个回答
0
投票

对优势类进行下采样是相当普遍的。

但是你需要确保解决你的实际问题。

如果你将你的课程下采样到1:1的比例,这可能会使某些评估看起来很好,但这仍然反映了现实吗?您对分类器进行了培训,以便在50%的病例中预测阳性,但只有3%为阳性。如果“误报”花了你很多钱,这可能是一个问题。

© www.soinside.com 2019 - 2024. All rights reserved.