scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

如何在Scrapy中访问特定统计数据（“finish_reason”，“elapsed_time_seconds”）？

我正在使用 Scrapy，我可以用它从不同的 URL 抓取数据。我试图获得的一件事是统计数据，特别是 finish_reason 和

python scrapy

回答 1 投票 0

文章=response.css(‘.article-main).getall() 莱恩(文章) 到这里我们就得到结果了艺术=文章[0] Art.css(‘.art2-amp::text’).get() 面对错误 str 对象没有属性 css。注意...

python scrapy

回答 1 投票 0

安装 scrapy 时出错：退出 1 错误

这是我得到的错误。之前工作正常，然后我重新安装了 python（我已将其添加到系统变量中）并安装了 vscode（如果相关的话）。但即使使用 Windows 终端，我也得到了

python scrapy

回答 2 投票 0

Scrapy 请求出现 403 错误，尽管 python 'get' 请求工作正常

尝试使用Scrapy获取少数网站的内容，但它们都返回403（禁止）响应代码。尽管当我使用“get”函数发出请求时，相同的网站工作正常，如下所示：小鬼...

python web-scraping python-requests scrapy get

回答 1 投票 0

安装的Reactor与请求的不符

我正在尝试运行 scrape-playwrights 文档上的示例，在quotes.toscrape.com/scroll 上运行滚动示例，但由于反应器的问题，我什至无法进行抓取...

python scrapy python-asyncio playwright

回答 3 投票 0

用于网页抓取的Scrapy工具。面临错误 str 对象没有属性 css

文章=response.css(‘.article-main).getall() 莱恩(文章) 到这里我们就得到结果了艺术=文章[0] Art.css(‘.art2-amp::text’).get() 面临错误 str 对象没有属性 css。注意...

python scrapy

回答 1 投票 0

Scrapy：USER_AGENT 和 ROBOTSXTXT_OBEY 设置正确，但我仍然收到错误 403

您好，提前感谢您提供的帮助或指导。这是我的刮刀：导入scrapy 类 RakutenSpider(scrapy.Spider): 名称=“拉克” allowed_domains = [“rakuten.com”...

scrapy web-crawler agent

回答 2 投票 0

Facebook 市场的 Python scraper 不再工作了

从昨天开始，我遇到了一个问题，我的Facebook市场抓取工具停止获取数据，由于他的功能，我目前正在使用scrapy，我是否做错了什么？输出已共享...

python parsing scrapy web-crawler marketplace

回答 1 投票 0

如何检测亚马逊站点地图

我正在尝试从 amazon.com 抓取一些产品，但我在 robots.txt 中找不到它我试过 amazon.com/sitemap.xml amazon.com/sitemap.xml.gz amazon.com/sitemap1.xml.gz amazon.com/sitema...

web-scraping scrapy sitemap

回答 4 投票 0

Parsel 无法访问嵌套元素

我正在与 Parsel 合作。不幸的是，我无法解析标签，它是另一个标签的子标签（我知道，中的不是 HTML 标准）。我该如何处理...

python beautifulsoup scrapy lxml parsel

回答 1 投票 0

为什么我使用 Scrapy 会收到“ReactorNotRestartable”错误？

我在 Google Colab 中使用 Scrapy，但总是收到 ReactorNotRestartable 错误：图像首先我使用 pip 安装了 Scrapy，然后使用了以下代码：导入scrapy 从 scrapy.crawler 导入 CrawlerPro...

python web-scraping scrapy

回答 2 投票 0

Windows环境下Scrapy-Playwright集成

我正在尝试使用 scrapy-playwright 库来解析/抓取基于 JavsScript 的网站。在工作时，我了解到这与 Windows 系统已知问题不兼容。我要出去了...

python web-scraping scrapy python-asyncio playwright

回答 3 投票 0

Scrapy 获取的 HTML 与浏览器显示为源 HTML 的完全不同

我已经进行网页抓取几个月了，正在努力提升水平。最近我开始使用 scrapy。我遇到了一个让我难住的网站：https://www.comperdelivery.com.br/bebida...

python html web-scraping scrapy python-requests

回答 1 投票 0

Scrapy Feed 未保存

我正在使用一个 Scrapy 蜘蛛，它成功地抓取了几千个项目（参见下面的日志）并尝试将它们存储到 S3 中。但是，无论我使用什么设置，都不会保存导出。哑光...

python scrapy

回答 1 投票 0

Scrapy - 如何访问特定统计数据（“finish_reason”、“elapsed_time_seconds”）？

我正在使用 Scrapy，我可以用它从不同的 URL 抓取数据。我试图获得的一件事是统计数据，特别是 finish_reason 和

python scrapy

回答 1 投票 0

如何在Scrapy中访问子类？

所以我试图抓取以下页面：https://www.inmuebles24.com/departamentos-en-renta-en-orizaba.html。我想访问 posts-container 的子级以及其中的信息。我

python web-scraping scrapy

回答 1 投票 0

如何消除unicode中的电话表情符号？

在网页抓取过程中，在删除所有 html 标签后，我得到了 unicode 中的黑色电话字符 \u260e (☎)。但与这个回应不同的是，我也想摆脱它。我用了以下

python regex python-2.7 scrapy

回答 3 投票 0

css 选择器可以正确识别 scrapy shell 中的项目，但在我运行蜘蛛时却不能正确识别

csv 返回除“href”标签之外的所有空链接。我认为这可能与get请求有关。我在某处读到，你只能执行一个，然后你必须解析，我只是不......

python css xml web-scraping scrapy

回答 1 投票 0

从 Celery 中的脚本运行 Scrapy 时出现问题：安装的反应器与请求的不匹配

有很多方法可以从脚本（文档）启动 scrapy 蜘蛛。但是当你在 Celery 中处理它时，它就变得有些复杂了。我想要的是一个能够启动 scrapy 的函数...

scrapy celery twisted

回答 1 投票 0

如何将带有Scrapy请求的自定义元数据传递到自定义中间件中？

目标：尝试通过“scrapy.Request”的“meta”属性传递自定义“captcha_data”，以便在跨不同蜘蛛的自定义中间件中使用它，每个蜘蛛都有其独特的“captcha_data”。 ...

python-3.x web-scraping scrapy middleware captcha

回答 1 投票 0

scrapy 相关问题

最新问题