考虑到每对单词的相似性,如何衡量两个文档的相似度?

问题描述 投票:0回答:1

我有两个文件,例如:

Doc1 = {'python','numpy','machine learning'}
Doc2 = {'python','pandas','tensorflow','svm','regression','R'}

而且我也知道每对单词的similarity(相关性),例如

Sim('python','python') = 1
Sim('python','pandas') = 0.8
Sim('numpy', 'R') = 0.1

衡量两个文件相似性的最佳方法是什么?

在这种情况下,似乎传统的Jaccard distancecosine distance不是一个好的指标。

python-3.x nlp similarity
1个回答
0
投票

我喜欢a book by Peter Christen这个问题。

在这里,他描述了两组字符串之间的Monge-Elkan相似性度量。对于第一组中的每个单词,您可以找到第二组中最接近的单词,并将其除以第一组中的元素数。你可以看到它的描述on page 30 here

© www.soinside.com 2019 - 2024. All rights reserved.