从维基词典中提取词源信息

问题描述 投票:0回答:1

我正在尝试提取维基词典词源部分中的信息。例如,在

https://en.wiktionary.org/wiki/telescope
中给出单词telescope,我想刮掉下图所示的部分:

我尝试抓取它,但标签或类名并不总是一致。相反,我使用了官方 API,但我也可以提取我需要的内容。这是我能得到的最好的了。 https://en.wiktionary.org/w/api.php?action=query&prop=extracts&explaintext&titles=telescope

任何人都可以推荐一种提取这些信息的方法吗?

web-scraping
1个回答
0
投票

我几天前才发现一个新版本的 MediaWiki API。旧 API 是“Action API”,新 API 是“REST API”

好消息是,此 REST API 现在包括 对 Wiktionary 的支持(目前仅提供英语)。

坏消息是它不返回词源部分的任何信息。反正还没有。您可以加入邮件列表或提交功能请求。

© www.soinside.com 2019 - 2024. All rights reserved.