为组织名称生成向量嵌入

Question

我见过几个可以生成公司名称嵌入的 Word2Vec 模型，并且在给出相同公司名称的不同格式时表现良好。但我想做的有点不同。例如，我有一个公司名称列表，例如：[“abc informatics”、“xyz communications”、“intra soft”、“gigabyte”] 现在，如果出现一个新的公司名称，我想检查它是否已与现有公司名称匹配，阈值达到 80%（可能通过余弦相似度或任何其他方法）。由于嵌入模型是针对国际公司进行训练的，因此对于本地公司来说表现不佳。另一个问题是 Word2Vec 在生成嵌入时反映了语义，例如“Plants ltd”和“Trees Ltd”会生成类似的嵌入，但实际上它们彼此有很大不同！！！

如果嵌入相似性搜索效果不佳，我愿意接受任何其他解决方案。

这个问题可能与 Create embeddings for string Matching 重复，但由于它没有收到任何好的答案，所以我还是在这里问这个问题。

Answer 1

我发现 ngram 最适合公司名称和地址，而不是语义嵌入

为组织名称生成向量嵌入

问题描述投票：0回答：1

1个回答

最新问题

为组织名称生成向量嵌入

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1