scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

网页抓取时 JSON 中不需要的转义字符

我想使用scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的转义字符。 这是一个示例...

回答 1 投票 0

Scrapy 从表中收集数据

我没有从下面的脚本中收到错误,但该脚本不返回任何数据。我试图获取 html 表 4 中开始的每周的所有比赛。当我输入 xpath 命令时我...

回答 1 投票 0

为什么在 Scrapy 中使用中间件时会出现无限循环?

我正在实施一个在网站上抓取工作机会的计划。但是,我有一个问题:在同一个站点上,链接有时是用相对 href 编程的,有时是绝对的(例如:有时我有......

回答 1 投票 0

Kubernetes Docker 容器 Pod 中无法访问 ScrapyRT 端口

我在访问 Kubernetes pod 内特定端口上运行的 ScrapyRT 服务时遇到困难。我的设置包括一个 Kubernetes 集群,其中有一个运行 Scrapy 应用程序的 Pod,其中...

回答 1 投票 0

无法让一个 pod 与另一个 pod 通信(Kubernetes 中的 ScrapyRT 通信不起作用)

我正在管理 Kubernetes 集群,并希望 Pod1 对 Pod2 和 Pod3 进行 API 调用(但 Pod1 - Pod3 失败!): Pod1:用于测试连接的 Jupyter Notebook 环境。 Pod2:运行的 Express.js 应用程序...

回答 1 投票 0

Scrapy 条件 HTML 值

下面的代码找到了我正在寻找的大部分元素。然而,温度和风速的标签会根据天气严重程度而变化。如何让下面的代码一致得到...

回答 1 投票 0

无法让一个 Pod 与另一个 Pod 通信(Pod 间通信不起作用)

我正在管理 Kubernetes 集群,并希望 Pod1 对 Pod2 和 Pod3 进行 API 调用(但 Pod1 - Pod3 失败!): Pod1:用于测试连接的 Jupyter Notebook 环境。 Pod2:运行的 Express.js 应用程序...

回答 1 投票 0

Scrapy:运行 CrawlProcess() 时出现twisted.internet.error.ReactorNotRestartable

我正在尝试从脚本运行我的scrapy。 我正在使用 CrawlerProcess,并且只有一个蜘蛛可以运行。 我已经被这个错误困扰了一段时间,并且我尝试了很多方法来改变

回答 4 投票 0

我不断收到错误 TypeError: unsupported operand type(s) for +=: 'NoneType' and 'str'

我制作了一个scrapy蜘蛛,可以为水管工抓取黄页。该地址分为两部分。因此,在获得这些部分后,我将它们放在管道文件中。波纹管是...

回答 1 投票 0

Scrapy 自动化

我正在作为一名初级数据科学家从事一个项目 在我抓取了几个网站后,他们要求我自动化抓取过程 我使用 scrapy 作为这个问题的框架,并使用 mongoDB 来解决...

回答 1 投票 0

如何在Scrapy中将数据从一个管道发送到另一个管道

您好我有两个管道,第一个用于下载照片: 类 ModelsPipeline(ImagesPipeline): def get_media_requests(自身,项目,信息): 对于 item['image_urls'] 中的 image_url: ...

回答 2 投票 0

Scrapy Shell 仅从 div 类元素中提取文本

我试图仅从该网站 http://www.nflweather.com/ 提取日期值 我相信我有代码,但我需要稍微清理一下结果 response.xpath('//div[@class="fw-bold

回答 1 投票 0

从网页中提取隐藏链接

请检查此链接 https://maroof.sa/businesses。 这是我想从中提取链接的网站的链接。 例如,如果您向下滚动,您会找到商店名称“Marwa store&qu...

回答 1 投票 0

Response.css 返回一个空数组 - Scrapy

我对网络抓取和Scrapy总体来说是新手。我正在尝试从黄页中抓取并遇到挑战。当我在终端中运行 fetch 时,我收到 200 响应。但当尝试这样做时

回答 1 投票 0

如何用Scrapy抓取页面的内链?

在下面的页面上,我有3个属于受害者、恶意软件和威胁源的链接列表,当我在抓取过程中到达上述项目时,我想输入它们的链接并抓取它们的内容...

回答 1 投票 0

如何用Scrappy抓取页面的内部链接?

在下面的页面上,我有3个属于受害者、恶意软件和威胁源的链接列表,当我在抓取过程中到达上述项目时,我想输入它们的链接并抓取它们的内容...

回答 1 投票 0

Scrapy Python。如何在终端中获取“item_scraped_count”?

我是Python编程和网络抓取的新手。我的预期代码是在网站上抓取该书的标题、价格和网址。然而,我无法在我的终端中收到想要的消息,...

回答 1 投票 0

使用Scrapy,当我尝试抓取两个几乎相同的页面时,CSS选择器适用于其中一个,但不适用于另一个

选择器是: response.css('div.dp-conteudo__esquerda span.varpb').extract_first() 页面是这个那个。 第一个通常返回正确的跨度,但第二个不返回任何内容......

回答 1 投票 0

如何调试Scrapy?

我 99% 确信我的 hxs.select 在这个网站上出了问题。我无法提取任何东西。当我运行以下代码时,我没有收到任何错误反馈。标题或链接未填充......

回答 4 投票 0

scrapy 因 500 内部服务器错误而停止爬行

我正在使用 scrapy 爬网,收到错误: 放弃重试(失败3次):500内部服务器错误 即使在解析方法中我有一个...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.