我目前正在做我的最后一年的项目,我需要你的拙见。我的数据集由 4 个类组成,其中包含:
轻度痴呆 - 896 张图片
中度痴呆 - 64 张图片
非痴呆 - 3200 张图片
非常轻度痴呆 - 2240 张图片
如你所见,我的中度痴呆和轻度痴呆被认为是高度不平衡。因此,我目前正在探索当涉及到不平衡数据时我应该做的事情。我正在考虑使用数据增强或 SMOTE 来增加我的不平衡数据。然而,我发现数据增强应该仅针对训练集进行。就我而言,我想在拆分数据之前重新平衡数据,以确保数据平衡。我应该怎么办?有人可以帮助我吗?
我仅在训练集上进行数据分割后尝试过数据增强。然而,我的主管建议我也许应该使用 SMOTE 对图像进行过采样。
“长尾学习”中经常出现数据不平衡的问题,“长尾学习”侧重于解决具有长尾分布的数据集。
有多种方法可用于处理数据不平衡问题。最简单有效的方法是使用成本敏感学习,它根据数据数量来平衡类别重要性权重。
例如,您的数据集总共包含 6,400 条数据,“中度痴呆”类别的数据数量为 64,则“中度痴呆”的类别重要性权重计算为 6,400/64 = 100。另一方面,“非痴呆”类别的数据数量为 3,200,其类别重要性权重计算为 6,400/3,200 = 2。
参考: https://samer-baslan.medium.com/an-introduction-to-deep-long-tailed-learning-414881a2519