考虑到每对单词的相似性，如何衡量两个文档的相似度？

Question

我有两个文件，例如：

Doc1 = {'python','numpy','machine learning'}
Doc2 = {'python','pandas','tensorflow','svm','regression','R'}

而且我也知道每对单词的similarity（相关性），例如

Sim('python','python') = 1
Sim('python','pandas') = 0.8
Sim('numpy', 'R') = 0.1

衡量两个文件相似性的最佳方法是什么？

在这种情况下，似乎传统的Jaccard distance和cosine distance不是一个好的指标。

Answer 1

在这里，他描述了两组字符串之间的Monge-Elkan相似性度量。对于第一组中的每个单词，您可以找到第二组中最接近的单词，并将其除以第一组中的元素数。你可以看到它的描述on page 30 here。