如何处理不平衡样本数据的二分类问题?

问题描述 投票:0回答:1
我尝试将样本数据的某个属性分为两类。但由于样本中该属性对应的正负例数量严重不平衡,正样本的比例大致在0.021到0.081之间。我尝试了以下方法。损失函数,但是在这个属性预测上的表现不是很好:

    交叉熵损失函数
  1. 焦点丧失
  2. 添加了预测正例比例的回归损失,以迫使模型给出相似数量的正预测 总体来说,预测该属性的相关指标如下:
mean accuracy: 0.906994 mean distribution_penalty: 0.113315 mean loss/ratio_diff: 0.127105 mean positive_ratio: 0.055357 mean precision: 0.067548 mean pred_positive_ratio: 0.052895 mean recall: 0.060489
召回率和准确率太低,导致模型始终无法很好地预测该属性。我尝试调整Focal Loss相关的超参数,但几乎没有效果,甚至影响了预测正例比例的回归。

我应该选择什么样的损失函数?或者说如何调整合适的超参数?谢谢!

python deep-learning classification
1个回答
0
投票
我过去在处理不平衡分类问题时遇到过类似的问题。焦点丧失可能会有帮助,但有时它本身还不够。以下是一些对我很有效的其他策略:

    过采样/欠采样
从多数类中获取较少的数据,或者从少数类中获取更多的数据(即使对于二元分类,两者都会做同样的事情,这取决于你给“纪元”这个词赋予你想要的含义)。欠采样时,不要忘记随机选择数据,这样您仍然可以揭示大多数类别的整体多样性。这样你会得到更好的分布,但你可能会小心不要过度拟合少数群体。这就是第二点出现的原因。

    渐进但强大的数据增强
当然,这在很大程度上取决于您的数据,但只要它保持可识别性,它就可能与采样技巧很好地配合。

    综合数据
就像“强增强”一样,它在很大程度上取决于您正在操作的数据,但我最终结合了数据来增强分类。通过某种态射,您可以使用 X% 的正数据进行训练。

© www.soinside.com 2019 - 2024. All rights reserved.