scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

在不使用管道模块的情况下将 Web Scraper 连接到 Dagster 中的资产

我想用 scrappy 在 dagster 中抓取网站的内容。 不幸的是,我发现的所有例子都使用了 dagster 的 pipeline 模块。 当前版本没有这个管道p...

回答 1 投票 0

Python scrapy playwright 出现错误 ValueError: Page.evaluate: The future 属于不同的循环

这里是完整的错误日志 第514行,在wrap_api_call中 从 None 引发 rewrite_error(error, f"{parsed_st['apiName']}: {error}") ValueError:Page.evaluate:未来属于不同的...

回答 1 投票 0

方法“myspider”的签名。 parse()' 与类 'Spider' 中的基本方法的签名不匹配

我正在尝试抓取一个网页(https://a-z-animals.com/animals/)以获取其中列出的所有动物名称。 我在 PyCharm 项目中安装了 scrapy。然后,通过使用 PyCharm 中的终端,创建了一个

回答 1 投票 0

ModuleNotFound 错误。找不到蜘蛛

我根据项目教程组装的网络爬虫遇到了 ModuleNotFound 错误。我的爬虫运行良好,但是一旦我添加了代码来提取数据并将其存储在 MongoDB 中

回答 1 投票 0

Scrapy 剧作家(python)在 headless = True 中给出 403,在 headless = false 中给出 200?

我正在使用 scrapy-playwright 抓取一个电子商务网站,当我使用 headless: True 进行抓取时,我收到 403 错误,但是使用 Headless False 我得到 200,我什至尝试随机化用户代理...

回答 2 投票 0

Scrapy蜘蛛错误处理(scrapy.core.scraper)

阅读了几个小时的解决方案后,我仍然找不到问题的答案。 我正在尝试抓取超市网页,我认为错误出在解析函数中。请如果有人...

回答 1 投票 0

仅将资源类型限制为 XHR 的剧作家

我只想使用 playwright_page_event_handlers 从 scrapy_playwright 返回 xhr。检查 jsonlines 文件后,我发现它没有成功限制为仅 xhrs。 我知道...

回答 1 投票 0

spider_close 信号在中断时未处理

我有一个 scrapy 蜘蛛,我以与平常不同的方式运行它,因为有时我想在蜘蛛完成后再次运行它。 这是我的代码: 类 LinkExtractorSpider(scrapy.spi...

回答 1 投票 0

Scrapy - 不要根据 http status_code 过滤某些 url

我有一个自定义的 dupefilter,当我启动/停止它时,我用它来加载/保存我的抓取状态到 s3 中。 我想从重复过滤器中删除具有特定 http status_code 的网址,例如 429

回答 1 投票 0

scrapy 蜘蛛使用 seleniumbase 中间件抓取未请求的“chrome-extension”URL

我目前正在使用 seleniumbase 中间件运行 scrapy 蜘蛛,由于某种原因,它正在抓取 chrome 扩展 URL。我正在抓取 https://www.atptour.com 网站,但从来没有......

回答 1 投票 0

使用 scrapy 项目加载器抓取 json

@wRAR 提示后更新 我正在按照这个例子来抓取新闻网站。当我检查他的例子中返回的类型时,该类型是 scrapy.selector.unified.SelectorList。 就我而言,

回答 1 投票 0

如何在scrapy中使用session提交表单

我正在尝试使用 Scrapy 抓取网站。要获取我想要的内容,我需要先登录。网址是登录网址 我的表格如下: 我的代码如下: LOGIN_URL1 = "呃...

回答 2 投票 0

抓取 Api 但没有得到我想要的结果页面

很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-

回答 1 投票 0

Scrapy - 抓取 Api 但没有得到我想要的结果页面

很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-

回答 1 投票 0

如何将中间件与settings.py中设置的中间件一起附加到特定的spider中?

settings.py 中为所有蜘蛛启用了某些中间件 对于一个特定的蜘蛛,如何将另一个中间件与 settings.py 中的所有中间件一起附加? 假设设置.py

回答 1 投票 0

Scrapy-playwright:KeyError:'playwright_page'

我正在尝试抓取一个在向下滚动时加载文章的网页。为了实现这一目标,我结合使用了 scrapy 和 playwright。这是我的爬虫的python代码: 导入 json 导入

回答 1 投票 0

使用 scrapy-playwright 抓取亚马逊 ASIN

在尝试抓取“亚马逊标准识别号”时,我的代码运行良好,但输出中缺少一些 asin 值。我已经检查了 html 标签,所有的 asin 值...

回答 1 投票 0

使用Scrapy连续捕获嵌套页面中的数据

我正在尝试使用 Scrapy BaseSpider 抓取一个相当简单的网站,因为我事先知道我想要抓取的所有链接在哪里。 待抓取网站的基本布局是

回答 1 投票 0

如何判断CloseSpider是否在CrawlerProcess级别引发

我需要在循环中运行我的抓取工具,但如果蜘蛛中发生某些错误,我希望能够引发 CloseSpiderand 以便过滤到循环函数并停止循环。 这是我的同事...

回答 1 投票 0

使用爬虫框架Scrapy时仅发出HEAD请求

当使用Python中的爬虫框架Scrapy时,我只想检查几千个域的HTML响应代码 - 没有其他任何事情来快速高效地初始爬取状态...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.