我有一个不平衡的数据集,有两个类(+1
,-1
)。积极因素仅为数据集的7%。
我想使用决策树进行分类。我已经尝试将负片下采样到:
对于他们所有人来说,我得到了几乎相同的精确度,但是对于第一个样本(正数与负数相同的负数),对正数的回忆要好得多。但我觉得我在这里遗漏了一些东西,所以这次抽样有什么不好?
对优势类进行下采样是相当普遍的。
但是你需要确保解决你的实际问题。
如果你将你的课程下采样到1:1的比例,这可能会使某些评估看起来很好,但这仍然反映了现实吗?您对分类器进行了培训,以便在50%的病例中预测阳性,但只有3%为阳性。如果“误报”花了你很多钱,这可能是一个问题。