我正在尝试提取维基词典词源部分中的信息。例如,在
https://en.wiktionary.org/wiki/telescope中给出单词
telescope
,我想刮掉下图所示的部分:
我尝试抓取它,但标签或类名并不总是一致。相反,我使用了官方 API,但我也可以提取我需要的内容。这是我能得到的最好的了。 https://en.wiktionary.org/w/api.php?action=query&prop=extracts&explaintext&titles=telescope
任何人都可以推荐一种提取这些信息的方法吗?
我几天前才发现一个新版本的 MediaWiki API。旧 API 是“Action API”,新 API 是“REST API”。
好消息是,此 REST API 现在包括 对 Wiktionary 的支持(目前仅提供英语)。
坏消息是它不返回词源部分的任何信息。反正还没有。您可以加入邮件列表或提交功能请求。