标记问题的答案。类别“其他”，该怎么办？

问题描述投票：0回答：1

我正在训练 SVC 模型来预测调查中答案的类别。在标签中有一个名为“其他”的类别。我尝试设置一个概率，以便只有概率最高的答案才能进入类别。这是不与“其他”一起训练时的混淆矩阵结果。在本例中，标签“其他”是 6。

confusion matrix, label other = 6

如果我将概率设置为仅对概率高于 0.75 的答案进行分类，那么大多数答案都会转到其他部分。

如果我使用“其他”标签（此处为标签 3）训练模型，则模型无法真正预测任何真实答案为 3。

confusion matrix, label other = 3

“其他”类的一些背景信息。不过，“其他”类别相当小（530 个样本中的 30 个）。我使用 20% 测试集、网格搜索和交叉验证。 “其他”类中仍然有单词，但它们只是与问题无关的答案。此外，所有答案均使用 Multilingual-E5-large-instruct 嵌入。

我可以做些什么来改善这一点吗？

scikit-learn

nlp

svm

text-classification

1个回答

0
投票

当您在训练中包含“其他”类时，由于该类可用的数据量有限，模型可能很难从中学习。

考虑使用平衡数据集。使用 SMOTE 等技术增强数据可以帮助增加“其他”类的表示，从而使模型能够更有效地学习。平衡的标签类别往往会产生更好的总体结果。

这里是平衡数据集的参考。