如何使用SQL查询维基百科:对维基模式的更好描述?如何查询页面的内容?

问题描述 投票:0回答:1

我受命处理以下问题:使用SQL查询维基百科,并获取单词“ nice”出现的次数。同样,显示文章的名称和每条文章“ nice”出现的次数。

我实际上无法使用SQL访问Wikipedia页面的内容。我正在使用Quarry来处理查询,而我根本找不到页面内容的存储位置。我以此为参考:https://www.mediawiki.org/w/index.php?title=Manual:Database_layout/diagram&action=render

我认为页面的内容可能存储在页面表或内容表中。这些字段及其数据类型对我来说都没有意义(就保存页面的实际文本内容而言)。文章的实际内容存储在哪里?谁能提供有关此数据库实际上如何表示Wikipedia页面的简短描述?

sql apache-spark mediawiki
1个回答
0
投票

页面文本不太直接。在MediaWiki中,每个页面(存储在page表中)可以具有多个修订版本(存储在revision表中),每个修订版在text表中都有其文本。您很可能希望对这些表进行联接以连接信息。

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.