Scrapy - 如何从嵌套链接中提取信息

问题描述 投票:0回答:1

我开始学习如何使用 Scrapy www.scrapy.org

我的问题是我试图从另一个链接内的链接中提取信息。

流程是这样的:

我们输入www.imdb.com,然后在菜单上点击Watchlist > IMDbtop250,之后我们将到达http://www.imdb.com/chart/top,在那里我们会找到电影列表;

我试图输入每部电影都有这样的链接

www.imdb.com/title/tt0111161/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=2398042102&pf_rd_r=1EX7BT4EGCE6HVGF919H&pf_rd_s=center-1&pf_rd_t=15506&pf_rd_i=top&ref_=chttp_tt_1
,然后输入看起来像这样的电影的完整演员链接
www.imdb.com/title/tt0111161/fullcredits?ref_=tt_cl_sm#cast
,并开始从最后一个链接中提取所有演员,所以问题是我知道如何提取信息,但在链接导航方面遇到困难,这是我现在拥有的代码

    # -*- coding: utf-8 -*-
from scrapy import item
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class ActorsSpider(CrawlSpider):
    name = "actors"
    allowed_domains = ["www.imdb.com"]
    start_urls = ['http://www.imdb.com/chart/top',
                  'http://www.imdb.com/title/']

    def parse(self, response):
        rules = {
            Rule(LinkExtractor(allow=r'/title/tt0111161/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=2398042102&pf_rd_r=0BP5GZ1CWDNT2NFAWKDN&pf_rd_s=center-1&pf_rd_t=15506&pf_rd_i=top&ref_=chttp_tt_1')),
            Rule(LinkExtractor(allow=r'fullcredits?ref_=tt_cl_sm#cast'), callback='parse_actor'),
        }

    def parse_actor(self, response):
        item['title'] = response.css('title').extract()[0]
        return item

我知道这应该以递归方式完成,但首先我实际上试图使链接正常工作,并且我尝试输入的两个链接都共享此特征

/title/tt0111161/
至少在第一个链接。

另外,我现在只是提取标题,以了解我是否处于我想要的位置。

预先感谢您的帮助。

删除了一些链接,因为我还没有 10 点声誉。

python web-scraping scrapy href rules
1个回答
0
投票

您的 allowed_domains 错误,一定是:

allowed_domains = ["imdb.com"]

从评分最高的电影开始

start_urls = ['http://www.imdb.com/chart/top/']

解析每部电影并准备演员列表的 url

def parse(self, response):
        for film in response.css('.titleColumn'):
            url = film.css('a::attr(href)').extract_first()
            actors_url = 'http://imdb.com' + url[:17] + 'fullcredits?ref_=tt_cl_sm#cast'
            yield scrapy.Request(actors_url, self.parse_actor)

然后找到所有演员

def parse_actor(self, response):
        item = ImdbItem()
        item['title'] = response.css('h3[itemprop~=name] a::text').extract_first()
        item['actors'] = response.css('td[itemprop~=actor] span::text').extract()
        return item
© www.soinside.com 2019 - 2024. All rights reserved.