我受命处理以下问题:使用SQL查询维基百科,并获取单词“ nice”出现的次数。同样,显示文章的名称和每条文章“ nice”出现的次数。
我实际上无法使用SQL访问Wikipedia页面的内容。我正在使用Quarry来处理查询,而我根本找不到页面内容的存储位置。我以此为参考:https://www.mediawiki.org/w/index.php?title=Manual:Database_layout/diagram&action=render
我认为页面的内容可能存储在页面表或内容表中。这些字段及其数据类型对我来说都没有意义(就保存页面的实际文本内容而言)。文章的实际内容存储在哪里?谁能提供有关此数据库实际上如何表示Wikipedia页面的简短描述?
页面文本不太直接。在MediaWiki中,每个页面(存储在page
表中)可以具有多个修订版本(存储在revision
表中),每个修订版在text
表中都有其文本。您很可能希望对这些表进行联接以连接信息。