标记问题的答案。类别“其他”,该怎么办?

问题描述 投票:0回答:1

我正在训练 SVC 模型来预测调查中答案的类别。在标签中有一个名为“其他”的类别。我尝试设置一个概率,以便只有概率最高的答案才能进入类别。这是不与“其他”一起训练时的混淆矩阵结果。在本例中,标签“其他”是 6。

confusion matrix, label other = 6

如果我将概率设置为仅对概率高于 0.75 的答案进行分类,那么大多数答案都会转到其他部分。

如果我使用“其他”标签(此处为标签 3)训练模型,则模型无法真正预测任何真实答案为 3。

confusion matrix, label other = 3

“其他”类的一些背景信息。不过,“其他”类别相当小(530 个样本中的 30 个)。我使用 20% 测试集、网格搜索和交叉验证。 “其他”类中仍然有单词,但它们只是与问题无关的答案。此外,所有答案均使用 Multilingual-E5-large-instruct 嵌入。

我可以做些什么来改善这一点吗?

scikit-learn nlp svm text-classification
1个回答
0
投票

当您在训练中包含“其他”类时,由于该类可用的数据量有限,模型可能很难从中学习。

考虑使用平衡数据集。使用 SMOTE 等技术增强数据可以帮助增加“其他”类的表示,从而使模型能够更有效地学习。平衡的标签类别往往会产生更好的总体结果。

这里是平衡数据集的参考。

© www.soinside.com 2019 - 2024. All rights reserved.