scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

在下面的代码中， len(self.crawler.engine.slot.scheduler) 总是返回 0 self.crawler.engine.slot.scheduler.stats._stats['scheduler/enqueued'] 按升序返回值：1, 2,...

python scrapy

回答 1 投票 0

我尝试使用 scrapy playwright 滚动浏览网上商店以抓取所有产品，但它不起作用

我尝试单击“加载更多”按钮，直到它消失并加载所有产品。然后我想点击所有单个产品以从各个产品中抓取我需要的数据...

python web-scraping scrapy playwright playwright-python

回答 1 投票 0

如何使用selenium python点击打印图标？

如果在 chrome 浏览器中打开 pdf，我尝试单击打印图标，但我无法单击打印图标，请参阅下面的屏幕截图任何人都可以提供帮助。代码：- 导入时间来自硒

python selenium-webdriver scrapy

回答 1 投票 0

使用python“BeautifulSoup”库，但无法打印出我抓取的网站上的数据

目前，我正在使用一个名为 BeautifulSoup 的 Python 库从 WEB 上抓取一些东西但我发现我抓到的数据无法打印出来这是我的代码快照，如下所示导入

python scrapy

回答 1 投票 0

没有 <a> 节点/href 属性的 Scrapy web

相信你做得很好！我需要您的支持，我正在尝试抓取此网页：https://servicio.mapa.gob.es/regfiweb# 进入后，您必须前往：布斯卡多雷斯。产品。我愿意

web-scraping scrapy scrapy-splash

回答 1 投票 0

导入错误：没有名为管道的模块 - Scrapy/PyInstaller

我正在尝试从 Scrapy 项目创建一个 exe 文件。我必须添加数十个隐藏导入以避免错误，但现在我收到 ImportError: No module named pipelines ，我不知道该怎么办。博...

python windows scrapy python-import pyinstaller

回答 3 投票 0

无法从 Zara 抓取图像网址

我正在尝试从 Zara 抓取图像 url，但我唯一想到的是透明背景的 url。这是我试图抓取的链接：https://static.zara.net/photos///2022/V/...

web-scraping xpath scrapy imageurl

回答 1 投票 0

使用scrapy提取<li>和<ul>

我是Scrapy的新手，但我遇到了一个问题，即根据scrapy的教程代码形成准确的选择器，基本上我正在尝试列出所有业务、他们的地址和他们的网站。但当我...

python-3.x scrapy

回答 2 投票 0

使用 scrapy 从此网站抓取数据

我对数据抓取和学习绳索很菜鸟我将从该网站抓取数据值，https://www.twhouse.co.uk/index.php?route=product/catalog。我正在使用 scrapy shell 来询问...

python scrapy

回答 2 投票 0

如何在scrapy中发送带有标头和有效负载的Post请求

我正在尝试向 Graph API 发送发布请求，并且成功了，但我想在 scrapy 中发送相同的请求，但我不知道如何在 scrapy 中发送带有标头和有效负载的发布请求。

python web-scraping scrapy data-mining data-extraction

回答 1 投票 0

如何在scrapy-selenium中绕过cloudflare验证？

我尝试从法国网站上删除专业号码，但收到 403 错误，并且被 Clouflares 阻止。我使用 Selenium 和 Scrapy。我添加了 scrapy cloudflares 中间件，但它仍然......

python selenium-webdriver web-scraping scrapy scrapy-selenium

回答 1 投票 0

如何从带有嵌套跨度的p标签中获取文本内容？

我正在使用 Scrapy 从网站获取一些数据，但在从具有以下结构的 HTML 部分获取文本内容时遇到一些问题： ... 我正在使用 Scrapy 从网站获取一些数据，但从具有此结构的 HTML 部分获取文本内容时遇到一些问题： <div class="price"> <p> <span class="price-label"> Some label </span> Price value </p> </div> 我的主要目标是获取字符串“价格值”，但正如您所看到的，它被放置在 <p> 标签内，并且在 <span> 标签关闭之后。此位置使 response.css('.price p ::text').get() 指令返回空字符串，因为它尝试获取 <p> 和 <span> 标签之间的内容。我实现目标的唯一方法是使用字符串方法从 'response.css('.price p').get()` 中删除 <span> 标签，但我认为有一些更好的方法来获取内容。 "".join(response.css('.price p::text').getall()) 是众多可能的解决方案之一。

web-scraping scrapy

回答 1 投票 0

scrapy 转换图像

我使用Scrapy爬取一些图像，图像需要剪切一部分或添加水印。我覆盖了 pipelines.py 中的函数convert_image，但它不起作用。代码如下所示：班级

scrapy

回答 1 投票 0

为特定的scrapy请求添加延迟

是否可以延迟特定scrapy请求的重试。我有一个中间件，需要将页面的请求推迟到稍后的时间。我知道如何进行基本的延迟（队列末尾......

python scrapy

回答 4 投票 0

ValueError：信号仅在主线程中有效（Python / Scrapy + Flask）

我正在尝试使用 Flask + Scrapy 做一个 API。要点是当用户向我发送带有一些信息（如国家、位置和职位）作为参数的请求时，在 Scrapy 上发出请求...