我从文档中提取了大量的单词。语料库中的词语可能意思相同。例如:“命令”和“顺序”表示相同,“苹果”和“应用”并不意味着相同。
我想合并相似的词,说“命令”和“命令”到“命令”。我试图使用word2vec,但它没有检查单词的语义相似性(它为苹果输出了很好的相似性并且因为单词中的四个字符相同而适用)。当我尝试使用wup相似性时,如果单词具有匹配的同义词,那么它会给出良好的相似性得分,其结果并不令人印象深刻。
什么可能是减少语义相似的单词以摆脱冗余数据和合并类似数据的最佳方法?
我相信其中一个选项是使用WordNet。它会为您提供单词的同义词列表,因此您可以将它们合并在一起,因为您知道它的词性。
但是,我想指出“订单”和“命令”不一样,例如你没有在餐馆里指挥食物,这样的同义词对许多词来说都是正确的。
另外我想指出,对于Word2vec拼写是无关紧要的,根本没有考虑,算法只考虑并发使用。我想你可能会把它与FastText混合在一起。但是,您的模型应该存在一些问题。因为在一组标准的嵌入中,这些概念之间的距离应该很大。 MUSE FastText“apple”和“apply”之间的相似度仅为0.15,这是相当低的。
我使用Gensim的功能
model.similarity("apply", "apple")
因此,您可能需要修复学习参数或仅使用预训练模型。