我想对大量的记录进行核对,其中我有准确的维基百科文章标题(包括括号中的歧义)。什么是最快速的方法来匹配这些大量的记录,根据他们的 确切 OpenRefine中的维基百科标题?如果我只是简单地通过文本进行核对,可信度很低,而且具有相同标题的Wikidata条目会被混淆。
将你的值转化为维基百科的URL,比如用下面的GREL公式(假设所有文章都在英文维基百科上)。
'https://en.wikipedia.org/wiki/'+value
然后,你可以将此列与Wikidata调和服务进行调和,后者将识别这些URL,并通过站点链接解析Wikidata项目。
如果你的文章标题包含消除歧义的页面,调和服务会给你消除歧义的项目,所以最好的做法是仔细检查它们的类型 (P31
)通过调和后取来。
我认为你的做法是反其道而行之。使用@Wikidata编号,它也可以用于歧义页! Wikidata项在左侧窗格中。它提供了消除歧义的功能,并且是语言中立和可查询的。每个维基百科条目都有一个Wikidata条目。
也许还有一个SPARQL查询可以为你完成这项工作。如果你问一些Wikidatans,他们可以帮助你。试试 Twitter 上的 @wikidatafacts。
如果你需要包含非链接文本,这可能是在一些disamb页面列表中,维基百科的手动性质不会帮助你。但你可以抽查这些异常值。