我有两个文件,例如:
Doc1 = {'python','numpy','machine learning'}
Doc2 = {'python','pandas','tensorflow','svm','regression','R'}
而且我也知道每对单词的similarity
(相关性),例如
Sim('python','python') = 1
Sim('python','pandas') = 0.8
Sim('numpy', 'R') = 0.1
衡量两个文件相似性的最佳方法是什么?
在这种情况下,似乎传统的Jaccard distance
和cosine distance
不是一个好的指标。
我喜欢a book by Peter Christen这个问题。
在这里,他描述了两组字符串之间的Monge-Elkan相似性度量。对于第一组中的每个单词,您可以找到第二组中最接近的单词,并将其除以第一组中的元素数。你可以看到它的描述on page 30 here。