Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。
我根据项目教程组装的网络爬虫遇到了 ModuleNotFound 错误。我的爬虫运行良好,但是一旦我添加了代码来提取数据并将其存储在 MongoDB 中
Scrapy 剧作家(python)在 headless = True 中给出 403,在 headless = false 中给出 200?
我正在使用 scrapy-playwright 抓取一个电子商务网站,当我使用 headless: True 进行抓取时,我收到 403 错误,但是使用 Headless False 我得到 200,我什至尝试随机化用户代理...
Scrapy蜘蛛错误处理(scrapy.core.scraper)
阅读了几个小时的解决方案后,我仍然找不到问题的答案。 我正在尝试抓取超市网页,我认为错误出在解析函数中。请如果有人...
我只想使用 playwright_page_event_handlers 从 scrapy_playwright 返回 xhr。检查 jsonlines 文件后,我发现它没有成功限制为仅 xhrs。 我知道...
我有一个 scrapy 蜘蛛,我以与平常不同的方式运行它,因为有时我想在蜘蛛完成后再次运行它。 这是我的代码: 类 LinkExtractorSpider(scrapy.spi...
Scrapy - 不要根据 http status_code 过滤某些 url
我有一个自定义的 dupefilter,当我启动/停止它时,我用它来加载/保存我的抓取状态到 s3 中。 我想从重复过滤器中删除具有特定 http status_code 的网址,例如 429
scrapy 蜘蛛使用 seleniumbase 中间件抓取未请求的“chrome-extension”URL
我目前正在使用 seleniumbase 中间件运行 scrapy 蜘蛛,由于某种原因,它正在抓取 chrome 扩展 URL。我正在抓取 https://www.atptour.com 网站,但从来没有......
@wRAR 提示后更新 我正在按照这个例子来抓取新闻网站。当我检查他的例子中返回的类型时,该类型是 scrapy.selector.unified.SelectorList。 就我而言,
我正在尝试使用 Scrapy 抓取网站。要获取我想要的内容,我需要先登录。网址是登录网址 我的表格如下: 我的代码如下: LOGIN_URL1 = "呃...
很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-
很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-
如何将中间件与settings.py中设置的中间件一起附加到特定的spider中?
settings.py 中为所有蜘蛛启用了某些中间件 对于一个特定的蜘蛛,如何将另一个中间件与 settings.py 中的所有中间件一起附加? 假设设置.py
Scrapy-playwright:KeyError:'playwright_page'
我正在尝试抓取一个在向下滚动时加载文章的网页。为了实现这一目标,我结合使用了 scrapy 和 playwright。这是我的爬虫的python代码: 导入 json 导入
使用 scrapy-playwright 抓取亚马逊 ASIN
在尝试抓取“亚马逊标准识别号”时,我的代码运行良好,但输出中缺少一些 asin 值。我已经检查了 html 标签,所有的 asin 值...
我正在尝试使用 Scrapy BaseSpider 抓取一个相当简单的网站,因为我事先知道我想要抓取的所有链接在哪里。 待抓取网站的基本布局是
如何判断CloseSpider是否在CrawlerProcess级别引发
我需要在循环中运行我的抓取工具,但如果蜘蛛中发生某些错误,我希望能够引发 CloseSpiderand 以便过滤到循环函数并停止循环。 这是我的同事...
当使用Python中的爬虫框架Scrapy时,我只想检查几千个域的HTML响应代码 - 没有其他任何事情来快速高效地初始爬取状态...
这是我写的代码: # 蜘蛛.py def start_requests(自身): yield scrapy.Request(url=self.url, method='POST', callback=self.parse, dont_filter=True, flags=['这是开始请求方法...
如何在不使用浏览器自动化工具的情况下使用 Firebase 身份验证自动登录网站?
我有这个网站,我想每天通过向该网站发送带有不记名令牌的不同http请求来抓取。该任务要求我手动使用我的谷歌帐户登录,复制不记名令牌并...
这是我试图在 process_request 方法中给出主体的请求: 产量 scrapy.Request(url=self.url, method='POST',callback=self.parse) 这就是我尝试做的事情: 身体 = self.body.en...