我见过几个可以生成公司名称嵌入的 Word2Vec 模型,并且在给出相同公司名称的不同格式时表现良好。 但我想做的有点不同。例如,我有一个公司名称列表,例如:[“abc informatics”、“xyz communications”、“intra soft”、“gigabyte”] 现在,如果出现一个新的公司名称,我想检查它是否已与现有公司名称匹配,阈值达到 80%(可能通过余弦相似度或任何其他方法)。由于嵌入模型是针对国际公司进行训练的,因此对于本地公司来说表现不佳。另一个问题是 Word2Vec 在生成嵌入时反映了语义,例如“Plants ltd”和“Trees Ltd”会生成类似的嵌入,但实际上它们彼此有很大不同!!!
如果嵌入相似性搜索效果不佳,我愿意接受任何其他解决方案。
这个问题可能与 Create embeddings for string Matching 重复,但由于它没有收到任何好的答案,所以我还是在这里问这个问题。
我发现 ngram 最适合公司名称和地址,而不是语义嵌入