从特定维基百科门户获取所有文章

问题描述 投票:0回答:1

我正在尝试整理门户网站下所有文章的列表:水

(例如 json“url”:“https://en.wikipedia.org/wiki/Heavy_water”,“title”:“重水”)。

据我所知,没有直接的页面列出来自 Portal:Water 的所有文章。因此,我决定检查 Portal:Water 中可用的顶级类别(类别:水)及其所有子类别(多个级别)。

  1. 我尝试运行查询 (MediaWiki) 来获取

    category members
    ,但只检索到顶级类别 (45)。 沙箱查询结果.

  2. 我也尝试过Petscan(使用深度=1进行测试),但是:

    • 我不知道如何选择最佳深度(信息:对于

      depth >5
      ,我使用
      lvl1
      中的子类别进行查询,例如
      Water by city

    • 验证检索到的文章数量-Portal:Water 中现有文章的数量。

如果有人知道如何获取完整列表,包括所有子类别(其子类别、子类别等),我将非常感谢您的指导。 预先感谢您。

编辑:我可以获得所有类别(深度= 1)的tree,但我需要所有类别及其子类别:例如水 > 水的形态 > 云 > 云雾物理

web-crawler wikipedia mediawiki-api
1个回答
0
投票

我相信“这里有什么链接”功能就是您想要的。这是 Mediawiki 系统中的默认功能。

例如,要获取所有具有 portal:Water 的页面,您可以导航到以下 URL:

 https://en.wikipedia.org/wiki/Special:WhatLinksHere/Portal%3AWater?hidetrans=1&hideimages=1 

或者,为了快速解决方案,您可以简单地导航到英语维基百科中的搜索栏,然后输入

linksto:"Portal:Water"
,然后当您单击 Enter 时,它将检索该门户的所有页面。

© www.soinside.com 2019 - 2024. All rights reserved.