如何使用FastText处理不平衡的标签数据?

问题描述 投票:5回答:2

在FastText中,我有不平衡的标签。处理它的最佳方法是什么?

nlp word2vec fasttext
2个回答
1
投票

Fasttext似乎很好地处理了不平衡的数据。根据FAQ

还要注意,这种损失被认为是不平衡的类,即某些类比其他类更频繁。


0
投票

在我们的例子中,我们有一个非常偏斜的数据集,包含200多个类,20%的类包含80%的所有数据。

在我们的数据中,即使有这些高度偏斜的数据,我们也清楚地定义了类别中的文本。

示例:多数类的文本:“嘿,我需要一台计算机和一个鼠标来打开互联网并在Stack Overflow中发布编程答案”

少数民族的文字:“嘿,请给我以下物品:鸡蛋,生菜,洋葱,西红柿,牛奶和小麦?”

正如FastText处理WordNGrams和层次分割一样,如果你有一个非常明确定义的类别,如上所述,由于算法的性质,不平衡不是问题。

参考:Bag of Tricks for Efficient Text Classification - Armand Joulin,Edouard Grave,Piotr Bojanowski,Tomas Mikolov

© www.soinside.com 2019 - 2024. All rights reserved.