在FastText中,我有不平衡的标签。处理它的最佳方法是什么?
Fasttext似乎很好地处理了不平衡的数据。根据FAQ
还要注意,这种损失被认为是不平衡的类,即某些类比其他类更频繁。
在我们的例子中,我们有一个非常偏斜的数据集,包含200多个类,20%的类包含80%的所有数据。
在我们的数据中,即使有这些高度偏斜的数据,我们也清楚地定义了类别中的文本。
示例:多数类的文本:“嘿,我需要一台计算机和一个鼠标来打开互联网并在Stack Overflow中发布编程答案”
少数民族的文字:“嘿,请给我以下物品:鸡蛋,生菜,洋葱,西红柿,牛奶和小麦?”
正如FastText处理WordNGrams和层次分割一样,如果你有一个非常明确定义的类别,如上所述,由于算法的性质,不平衡不是问题。
参考:Bag of Tricks for Efficient Text Classification - Armand Joulin,Edouard Grave,Piotr Bojanowski,Tomas Mikolov