我正在用 100 000 个词汇量训练我的 word2vec 模型(skip-gram)。但是在测试时我得到了一些不在词汇表中的单词。为了找到它们的嵌入,我尝试了两种方法:
从词汇中计算最小编辑距离单词并获取其嵌入。
从单词构造不同的 n 元语法并在词汇中搜索它们。
尽管应用了这些方法,我还是无法完全摆脱词汇问题。
word2vec 是否像 fastText 那样在训练时考虑单词的所有 n 元语法?
注意 - 在 fastText 中,如果我们的输入单词是 quora,那么它会考虑语料库中所有可能的 n 元语法。
我认为你的案例中词汇外的单词是非常罕见的。其中一种可能性是使用指定符号(或另一个非常罕见的单词)的散列作为此类词汇外单词的哨兵。这需要对这些单词进行预处理,但在实际应用中应该足够好。