scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

scrapy - ResponseNeverReceived('SSL例程','','读取时出现意外的eof')

我在使用 Scrapy 抓取网站时遇到问题。我正在向特定 API 端点发出 GET 请求,但请求失败并出现 SSL 错误。以下是请求的代码...

回答 1 投票 0

Scrapy 上的外键

我用 scrapy 做一个剪贴画,我在 django 上的模型是: 创意类(模型.模型): 名称 = models.CharField(max_length=200) 图片 = models.CharField(max_length=200, null = True) 班级

回答 2 投票 0

定义的规则在Scrapy中没有被调用

我目前正在使用Python库Scrapy,并且我继承自CrawlSpider,以便我可以覆盖/定义自定义规则。我已经定义了规则,应该阻止所有带有 auth/... 的 URL

回答 1 投票 0

我的分页功能的响应不知为什么只请求第一页

感觉我发出的每个 scrapy.Request 在第一个请求之后都不存在,并且响应参数总是对第一个请求的响应,即使该方法被另一个调用

回答 1 投票 0

Python scrapy:获取网页中所有URL,不存在重复的URL

我想使用Python scrapy获取网页中的所有URL而不是重复的URL。我只想列出以 allowed_domains = en.wikipedia.org 开头的 URL。如果链接有外部链接,我...

回答 1 投票 0

使用python scrappy获取网页中所有URL,不存在重复的URL

我想使用 scrappy python 获取网页中的所有 URL,而不包含重复的 URL。我只想列出以 allowed_domains = en.wikipedia.org 开头的 URL。如果链接有外部链接,...

回答 1 投票 0

Scrapy:无法通过登录来抓取页面

我想抓取如下所示的这些页面,但它需要身份验证。 尝试了下面的代码,但它说 0 页被抓取。 我不明白出了什么问题。 有人可以帮忙吗.. ...

回答 4 投票 0

部署到scrapyd的spider如何读取环境变量?

TL;博士: load_env() 在本地加载环境变量,但在 scrapyd 中运行时不会加载 细节 我有一个scrapy项目需要读取一些环境变量。这些变量可以在 .en...

回答 1 投票 0

关于初学者Scrapy和scrapy爬行的问题

我最近开始尝试使用Scrapy学习网页抓取。最近我尝试通过 books.toscrape.com 进行 Scrapycrawl。根据终端显示,Scrapycrawl 调用工作正常,但事实并非如此

回答 1 投票 0

scrapy xpath 选择器重复数据

我试图从每个列表中提取公司名称和地址并将其导出到 -csv,但我在输出 csv 时遇到问题。 我认为 bizs = hxs.select("//div[@class='listing_conte...

回答 1 投票 0

我无法访问此网页中的任何内容,scrapy 每次都会产生空或 null

网页:https://opensupplyhub.org/facilities?facility_type=Final%20Product%20Assembly&sort_by=contributors_desc 我目前正在尝试 scrapy-playwright。我也尝试过使用硒,但没有...

回答 1 投票 0

Scrapy回调返回与yield

def parse_pagelist(自我,响应): 对于 pageinfo 中的页面: page_url=页面['url'] 产量响应.follow(page_url,self.parse_page) next_page=response.xpath('//ol[...

回答 3 投票 0

为什么Scrapy只从<thead>中取出<table>(忽略<tbody>)?

我正在使用 Scrapy 解析网站并希望从表中获取数据。我用 Scrapy Shell 中的 response.css("table").getall() ,但我只能从中获取数据,但我需要来自...的 .HTML 代码中的数据

回答 1 投票 0

使用scrapy解析html表格中任意数量的行(键:值对)

最近开始使用 scrapy 库。我正在尝试从一个网站上抓取数据,该网站对于他们销售的每种产品的表格略有不同。最终,我会用数据来弹出...

回答 1 投票 0

查看/输出scrapy Spider运行时的内存使用情况

我想更好地监控 scrapy 蜘蛛运行时的内存使用情况(上下文:我在 Heroku 上运行它,看看如何重组抓取以保持更多的范围内......

回答 1 投票 0

为什么scrapy-redis要重新爬取已经爬取过的url?

我用scrapy-redis写了一个分布式蜘蛛。 起初,一切似乎都很好。 分布式工作人员文件: # 分布式workers.py 导入scrapy 从 scrapy_redis.spiders 导入 Redis...

回答 1 投票 0

Scrapy Spider 不适用于多个 url

我编写了一个 Scrapy 蜘蛛,并在其中使用 Selenium 来废弃“devgrossonline.com”中的产品。 它不适用于多个类别 url,但当我只提供一个 url 时它可以工作。任何帮助都是

回答 1 投票 0

Scrapy + Playwright:从异步解析函数调用同步 parse_single 函数

我正在与 scrapy + Playwright 合作。 我目前拥有的蜘蛛的简化版本: 类 MySpider(CodeSpider): def start_requests(自身): url = 'https://www.google.com/search?q=p...

回答 1 投票 0

Scrapy SgmlLinkExtractor 添加任意 URL

如何向 SgmlLinkExtractor 添加 url? 也就是说,如何添加任意 url 来运行回调? 详细说明,以 dirbot 为例:https://github.com/scrapy/dirbot/blob/master/dirbot/

回答 2 投票 0

Scrapy 抓取网页给我一个值的空白值

我正在尝试用scrapy抓取这个网页,我可以获得除了距离之外我需要的所有数据。链接 https://www.thedogs.com.au/racing/albion-park/2024-05-30/10/tab-flying-amy-cla...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.