高度不平衡的阿尔茨海默病 MRI 图像数据集

问题描述 投票:0回答:1

我目前正在做我的最后一年的项目,我需要你的拙见。我的数据集由 4 个类组成,其中包含:

轻度痴呆 - 896 张图片

中度痴呆 - 64 张图片

非痴呆 - 3200 张图片

非常轻度痴呆 - 2240 张图片

如你所见,我的中度痴呆和轻度痴呆被认为是高度不平衡。因此,我目前正在探索当涉及到不平衡数据时我应该做的事情。我正在考虑使用数据增强或 SMOTE 来增加我的不平衡数据。然而,我发现数据增强应该仅针对训练集进行。就我而言,我想在拆分数据之前重新平衡数据,以确保数据平衡。我应该怎么办?有人可以帮助我吗?

我仅在训练集上进行数据分割后尝试过数据增强。然而,我的主管建议我也许应该使用 SMOTE 对图像进行过采样。

image deep-learning data-augmentation imbalanced-data smote
1个回答
0
投票

“长尾学习”中经常出现数据不平衡的问题,“长尾学习”侧重于解决具有长尾分布的数据集。

有多种方法可用于处理数据不平衡问题。最简单有效的方法是使用成本敏感学习,它根据数据数量来平衡类别重要性权重。

例如,您的数据集总共包含 6,400 条数据,“中度痴呆”类别的数据数量为 64,则“中度痴呆”的类别重要性权重计算为 6,400/64 = 100。另一方面,“非痴呆”类别的数据数量为 3,200,其类别重要性权重计算为 6,400/3,200 = 2。

参考: https://samer-baslan.medium.com/an-introduction-to-deep-long-tailed-learning-414881a2519

© www.soinside.com 2019 - 2024. All rights reserved.