scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

ModuleNotFound 错误。找不到蜘蛛

我根据项目教程组装的网络爬虫遇到了 ModuleNotFound 错误。我的爬虫运行良好，但是一旦我添加了代码来提取数据并将其存储在 MongoDB 中

python mongodb module scrapy

回答 1 投票 0

Scrapy 剧作家（python）在 headless = True 中给出 403，在 headless = false 中给出 200？

我正在使用 scrapy-playwright 抓取一个电子商务网站，当我使用 headless: True 进行抓取时，我收到 403 错误，但是使用 Headless False 我得到 200，我什至尝试随机化用户代理...

python scrapy playwright-python

回答 2 投票 0

Scrapy蜘蛛错误处理（scrapy.core.scraper）

阅读了几个小时的解决方案后，我仍然找不到问题的答案。我正在尝试抓取超市网页，我认为错误出在解析函数中。请如果有人...

python python-3.x web-scraping scrapy centos7

回答 1 投票 0

仅将资源类型限制为 XHR 的剧作家

我只想使用 playwright_page_event_handlers 从 scrapy_playwright 返回 xhr。检查 jsonlines 文件后，我发现它没有成功限制为仅 xhrs。我知道...

python scrapy playwright

回答 1 投票 0

spider_close 信号在中断时未处理

我有一个 scrapy 蜘蛛，我以与平常不同的方式运行它，因为有时我想在蜘蛛完成后再次运行它。这是我的代码：类 LinkExtractorSpider(scrapy.spi...

python scrapy twisted

回答 1 投票 0

Scrapy - 不要根据 http status_code 过滤某些 url

我有一个自定义的 dupefilter，当我启动/停止它时，我用它来加载/保存我的抓取状态到 s3 中。我想从重复过滤器中删除具有特定 http status_code 的网址，例如 429

python scrapy

回答 1 投票 0

scrapy 蜘蛛使用 seleniumbase 中间件抓取未请求的“chrome-extension”URL

我目前正在使用 seleniumbase 中间件运行 scrapy 蜘蛛，由于某种原因，它正在抓取 chrome 扩展 URL。我正在抓取 https://www.atptour.com 网站，但从来没有......

python scrapy seleniumbase

回答 1 投票 0

使用 scrapy 项目加载器抓取 json

@wRAR 提示后更新我正在按照这个例子来抓取新闻网站。当我检查他的例子中返回的类型时，该类型是 scrapy.selector.unified.SelectorList。就我而言，

python web-scraping scrapy

回答 1 投票 0

如何在scrapy中使用session提交表单

我正在尝试使用 Scrapy 抓取网站。要获取我想要的内容，我需要先登录。网址是登录网址我的表格如下：我的代码如下： LOGIN_URL1 = "呃...

python scrapy

回答 2 投票 0

抓取 Api 但没有得到我想要的结果页面

很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-

web-scraping scrapy splash-screen scrapy-splash

回答 1 投票 0

Scrapy - 抓取 Api 但没有得到我想要的结果页面

很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-

web-scraping scrapy splash-screen scrapy-splash

回答 1 投票 0

如何将中间件与settings.py中设置的中间件一起附加到特定的spider中？

settings.py 中为所有蜘蛛启用了某些中间件对于一个特定的蜘蛛，如何将另一个中间件与 settings.py 中的所有中间件一起附加？假设设置.py

scrapy

回答 1 投票 0

Scrapy-playwright：KeyError：'playwright_page'

我正在尝试抓取一个在向下滚动时加载文章的网页。为了实现这一目标，我结合使用了 scrapy 和 playwright。这是我的爬虫的python代码：导入 json 导入

python scrapy playwright infinite-scroll

回答 1 投票 0

使用 scrapy-playwright 抓取亚马逊 ASIN

在尝试抓取“亚马逊标准识别号”时，我的代码运行良好，但输出中缺少一些 asin 值。我已经检查了 html 标签，所有的 asin 值...

scrapy scrapy-playwright

回答 1 投票 0

使用Scrapy连续捕获嵌套页面中的数据

我正在尝试使用 Scrapy BaseSpider 抓取一个相当简单的网站，因为我事先知道我想要抓取的所有链接在哪里。待抓取网站的基本布局是

scrapy

回答 1 投票 0

如何判断CloseSpider是否在CrawlerProcess级别引发

我需要在循环中运行我的抓取工具，但如果蜘蛛中发生某些错误，我希望能够引发 CloseSpiderand 以便过滤到循环函数并停止循环。这是我的同事...

python scrapy python-multiprocessing

回答 1 投票 0

使用爬虫框架Scrapy时仅发出HEAD请求

当使用Python中的爬虫框架Scrapy时，我只想检查几千个域的HTML响应代码 - 没有其他任何事情来快速高效地初始爬取状态...

python scrapy

回答 2 投票 0

开始的请求陷入永无休止的循环中，无法到达解析回调

这是我写的代码： # 蜘蛛.py def start_requests(自身): yield scrapy.Request(url=self.url, method='POST', callback=self.parse, dont_filter=True, flags=['这是开始请求方法...

python web-scraping scrapy

回答 1 投票 0

如何在不使用浏览器自动化工具的情况下使用 Firebase 身份验证自动登录网站？

我有这个网站，我想每天通过向该网站发送带有不记名令牌的不同http请求来抓取。该任务要求我手动使用我的谷歌帐户登录，复制不记名令牌并...

python authentication web-scraping firebase-authentication scrapy

回答 1 投票 0

如何在 process_request 中为请求提供正文？

这是我试图在 process_request 方法中给出主体的请求：产量 scrapy.Request(url=self.url, method='POST',callback=self.parse) 这就是我尝试做的事情：身体 = self.body.en...

python web-scraping scrapy

回答 1 投票 0

scrapy 相关问题

最新问题