scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Scrapy - 将 Feed Exporter Overwrite 设置为 True

我开发了一个Scrapy蜘蛛,我想在不使用命令行的情况下执行它。这就是我使用 CrawlerProcess 的原因。我还希望将输出保存到 json 文件中。饲料出口商是完美的...

回答 1 投票 0

如何在python scrapy中获取队列中的请求数量?

在下面的代码中, len(self.crawler.engine.slot.scheduler) 总是返回 0 self.crawler.engine.slot.scheduler.stats._stats['scheduler/enqueued'] 按升序返回值:1, 2,...

回答 1 投票 0

我尝试使用 scrapy playwright 滚动浏览网上商店以抓取所有产品,但它不起作用

我尝试单击“加载更多”按钮,直到它消失并加载所有产品。然后我想点击所有单个产品以从各个产品中抓取我需要的数据...

回答 1 投票 0

如何使用selenium python点击打印图标?

如果在 chrome 浏览器中打开 pdf,我尝试单击打印图标,但我无法单击打印图标,请参阅下面的屏幕截图任何人都可以提供帮助。 代码:- 导入时间 来自硒

回答 1 投票 0

使用python“BeautifulSoup”库,但无法打印出我抓取的网站上的数据

目前,我正在使用一个名为 BeautifulSoup 的 Python 库从 WEB 上抓取一些东西 但我发现我抓到的数据无法打印出来 这是我的代码快照,如下所示 导入

回答 1 投票 0

没有 <a> 节点/href 属性的 Scrapy web

相信你做得很好! 我需要您的支持,我正在尝试抓取此网页:https://servicio.mapa.gob.es/regfiweb# 进入后,您必须前往: 布斯卡多雷斯。 产品。 我愿意

回答 1 投票 0

导入错误:没有名为管道的模块 - Scrapy/PyInstaller

我正在尝试从 Scrapy 项目创建一个 exe 文件。我必须添加数十个隐藏导入以避免错误,但现在我收到 ImportError: No module named pipelines ,我不知道该怎么办。 博...

回答 3 投票 0

无法从 Zara 抓取图像网址

我正在尝试从 Zara 抓取图像 url,但我唯一想到的是透明背景的 url。 这是我试图抓取的链接:https://static.zara.net/photos///2022/V/...

回答 1 投票 0

使用scrapy提取<li>和<ul>

我是Scrapy的新手,但我遇到了一个问题,即根据scrapy的教程代码形成准确的选择器,基本上我正在尝试列出所有业务、他们的地址和他们的网站。但当我...

回答 2 投票 0

使用 scrapy 从此网站抓取数据

我对数据抓取和学习绳索很菜鸟 我将从该网站抓取数据值,https://www.twhouse.co.uk/index.php?route=product/catalog。 我正在使用 scrapy shell 来询问...

回答 2 投票 0

如何在scrapy中发送带有标头和有效负载的Post请求

我正在尝试向 Graph API 发送发布请求,并且成功了,但我想在 scrapy 中发送相同的请求,但我不知道如何在 scrapy 中发送带有标头和有效负载的发布请求。

回答 1 投票 0

如何在scrapy-selenium中绕过cloudflare验证?

我尝试从法国网站上删除专业号码,但收到 403 错误,并且被 Clouflares 阻止。我使用 Selenium 和 Scrapy。我添加了 scrapy cloudflares 中间件,但它仍然......

回答 1 投票 0

如何从带有嵌套跨度的p标签中获取文本内容?

我正在使用 Scrapy 从网站获取一些数据,但在从具有以下结构的 HTML 部分获取文本内容时遇到一些问题: ... 我正在使用 Scrapy 从网站获取一些数据,但从具有此结构的 HTML 部分获取文本内容时遇到一些问题: <div class="price">     <p>         <span class="price-label">             Some label         </span>         Price value     </p> </div> 我的主要目标是获取字符串“价格值”,但正如您所看到的,它被放置在 <p> 标签内,并且在 <span> 标签关闭之后。 此位置使 response.css('.price p ::text').get() 指令返回空字符串,因为它尝试获取 <p> 和 <span> 标签之间的内容。我实现目标的唯一方法是使用字符串方法从 'response.css('.price p').get()` 中删除 <span> 标签,但我认为有一些更好的方法来获取内容。 "".join(response.css('.price p::text').getall()) 是众多可能的解决方案之一。

回答 1 投票 0

scrapy 转换图像

我使用Scrapy爬取一些图像,图像需要剪切一部分或添加水印。我覆盖了 pipelines.py 中的函数convert_image,但它不起作用。代码如下所示: 班级

回答 1 投票 0

为特定的scrapy请求添加延迟

是否可以延迟特定scrapy请求的重试。我有一个中间件,需要将页面的请求推迟到稍后的时间。我知道如何进行基本的延迟(队列末尾......

回答 4 投票 0

ValueError:信号仅在主线程中有效(Python / Scrapy + Flask)

我正在尝试使用 Flask + Scrapy 做一个 API。要点是当用户向我发送带有一些信息(如国家、位置和职位)作为参数的请求时,在 Scrapy 上发出请求...

回答 2 投票 0

无法获取第二级下拉列表的多个选项。它仅适用于一个下拉选项

parse_button 项有问题,如果值有多个选项,我的脚本无法获取下拉列表。 下面是多种组合的场景 场景1 工作 尺寸 6楼...

回答 1 投票 0

为什么Scrapy获取不到这个html?

此包含邮政编码查询字符串的 URL 可在浏览器中正确加载搜索结果: https://www.psychotherapy.org.uk/find-a-therapy/?Location=M3%201AR&Distance=10&page=7 每个...

回答 1 投票 0

从页面获取网址[关闭]

我如何从这个网站获取每个商店的网址: https://maroof.sa/businesses/ 我尝试了很多东西但无法得到它们

回答 1 投票 0

如何将Scrapy爬取的数据以csv或json格式上传到Amazon S3?

将Scrapy爬取的数据以csv/jsonl/json文件上传到Amazon s3的步骤是什么?我从互联网上能找到的就是将抓取的图像上传到 s3 存储桶。 我现在...

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.