如何从scrapy得到适当的回应？

Question

我试图从这个公司注册中搜索一些搜索结果，但是当我试图刮掉公司名称时，我的结果似乎没有正确返回，它就像公司名称项目被分成2个基于搜索关键字的html项目。

有没有办法将这些加在一起？这是我的蜘蛛

import scrapy

class QuotesSpider(scrapy.Spider):

name = 'gov2'
start_urls = ['https://beta.companieshouse.gov.uk/search/companies?q=a']

def parse(self, response):

for i in response.css('ul.results-list'):
  yield {
      'company_name': i.css('li.type-company h3 a::text').extract(),
      'address': i.css('li.type-company p::text').extract(),
  }

我的结果，你可以看到它缺少一些部分..

希望你们中的任何人看到发生了什么......谢谢！

Answer 1

正如我所看到的，你想获取a和p标签内的所有文本，这个标签中有很多tags。

尝试这个并通过regex删除不必要的空格：

import scrapy
import re

class QuotesSpider(scrapy.Spider):

    name = 'gov2'
    start_urls = ['https://beta.companieshouse.gov.uk/search/companies?q=a']

    def parse(self, response):

      for i in response.css('ul.results-list'):
         yield {
          'company_name': re.sub('\s+',' ',''.join(i.css('li.type-company h3 a ::text').extract())),
          'address': re.sub('\s+',' ',''.join(i.css('li.type-company p ::text').extract())),
      }

Answer 2

使用正则表达式，只需修改代码以获得更好的输出。

import re
import scrapy


class QuotesSpider(scrapy.Spider):
  name = 'gov2'
  start_urls = ['https://beta.companieshouse.gov.uk/search/companies?q=a']

    def parse(self, response):
      for i in response.css('.type-company'):
        yield {
            'company_name': re.sub('\s+', ' ', ''.join(i.css('h3 a ::text').extract())),
            'address': re.sub('\s+', ' ', ''.join(i.css('p ::text').extract())),
        }

如何从scrapy得到适当的回应？

问题描述投票：0回答：2

2个回答

最新问题

如何从scrapy得到适当的回应？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2