scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

我的蜘蛛在Scrapy中根本不进入yield scrapy.Request()

我在 Scrapy 中的蜘蛛遇到了问题。根据搜索键,我抓取了搜索结果页面并找到了链接。但是下一个抓取结果页面的yield scrapy.Request() 并没有进入...

回答 1 投票 0

理解Scrapy Python:重构parse方法不起作用

我有一个可以运行的蜘蛛代码。 类 MySpider(BaseScrapper): 名称 =“我的蜘蛛” def parse(self, 响应, **kwargs): self.logger.info(f"解析:处理{响应...

回答 1 投票 0

Scrapy FormRequest 用于复杂的有效负载

在一个包含律师工作详细信息的网站中,我尝试通过这个 4 层算法来抓取信息,其中我需要执行两个 FormRequest: 访问包含提交的搜索框的链接...

回答 2 投票 0

scrapy 仅通过第一个链接

我一般来说是scrapy和python的新手,我正在尝试制作一个scraper,从页面中提取链接,然后编辑这些链接,然后浏览每个链接..我正在将playwright与scrapy一起使用。

回答 3 投票 0

django celery [celery.worker] 调试:定时器唤醒!运行 scrapy 进程时的下一个预计到达时间

我正在 Django 中使用 celery 在 task.py 文件中运行一个简单的蜘蛛。运行我的蜘蛛的代码如下: 文件任务.py: @shared_task(绑定=True) def scrape_amazon_products(self,products_urls,

回答 1 投票 0

抓取 Wallmart 时出现 Python Scrapy Shell 错误

我正在使用 scrapy 抓取 walmart.com。当我获取 https://www.walmart.com/ 时没有错误,但尝试获取“https://www.walmart.com/search?q=tablets&typeahead=tabltes&q...

回答 1 投票 0

使用 Scrapy 抓取《纽约时报》

我正在尝试使用 Scrapy 来废弃《纽约时报》的一个学校项目。我尝试使用 NYT 提供的 API,但他们不允许访问最近的文章。 我试图废弃这个网站:htt...

回答 1 投票 0

Scrapy 蜘蛛会跳过页面并在结束前停止

我正在使用 scrapy 和 Playwright 开发一个蜘蛛来抓取零售品牌网站。基本上,它正在解析所有页面上所有产品的所有颜色的所有图像(页面 -> 产品 -> 颜色 -&...

回答 1 投票 0

BeautifulSoup4 中 find_all 的问题

我想在以下网站获取信息。我需要书名、代码、价格等。例如,让我们关注 ISBN 代码。我想在 html 中找到任何包含 ...

回答 1 投票 0

无法使用scrapy登录Instagram

我正在尝试使用 scrapy 登录 Instagram 来扫描和阅读评论,但我似乎无法登录,看起来请求被机器人阻止了。有没有更好的方法来尝试 scrapy

回答 1 投票 0

使用 Scrapy 和 Python 从一个脚本和 JavaScript 网站进行网页抓取

嗨,我正在尝试从下面的脚本中抓取(使用Scrapy)这个网站https://www.vaniercollege.qc.ca/sports-recreation/weekly-schedule/ 脚本.py 导入scrapy 从 scrapy.crawler 导入

回答 1 投票 0

使用带有::before的CSS选择器进行抓取不显示文本

我正在尝试使用 scrapy 从这个 eBay 列表中删除周一上午 9:30 的内容。 来自 scrapy shell scrapy shell https://www.ebay.com/itm/145599690533?: >>> response.css('span.ux-timer__time-left::

回答 1 投票 0

如何修复 Scrapy-Selenium 不产生输出?

Selenium 请求可以工作,但不能使用 scrapy-selenium。页面加载后,我从网站收到 200 响应,但没有收到任何错误,因为它没有产生任何输出。 类 SeamdbTestSpider(scrapy.Sp...

回答 2 投票 0

“在 Windows 上使用 scrapyd-deploy 将 Scrapy 项目部署到 Scrapyd 时出现权限错误”

我正在尝试使用 scrapyd-deploy 将 Scrapy 项目部署到 Windows 环境上的 Scrapyd,但遇到了 PermissionError。 这是我的环境: 操作系统:Windows 10 Python版本:3.11

回答 1 投票 0

Scrapy 广泛爬行返回错误“filedescriptor out of range in select()”

我正在尝试使用 Scrapy 在 2,000 个域上运行简单的广泛爬网。 我有 4 个列表,每个列表有 500 个域,然后我简单地在这 4 个列表上运行 process.crawl。 我只是在抓取他们的主页...

回答 1 投票 0

无法在Scrapy的Settings.py中检索Scrapyd部署的环境变量

我是 Scrapy 新手,目前正在尝试将我的蜘蛛部署到 Scrapyd 服务器。但是,我遇到了一个问题,我似乎无法在 Scrapy 设置文件中使用 os.getenv 。 这是嗬...

回答 1 投票 0

将 Docker 镜像部署到 Scrapy Cloud 时持续出错

我不确定是什么导致了问题,但是在尝试使用我的蜘蛛将 Docker 映像部署到 Scrapy Cloud(使用 shub 部署)时,出现以下错误: $ shub 部署 错误: 检测到电子...

回答 1 投票 0

如何将数据传回主函数进行yield?

我是使用 scrapy 库进行 python 编程的初学者。我想在与具有标题、作者等的主输出相同的输出中生成出生日期。但是,没有成功,我

回答 1 投票 0

无法通过页面中的链接来抓取数据。代码遍历页面但没有返回任何内容

我想让scrapy返回带有表格的特定网页,以便它可以“单击”该表格中的每个条目以转到新网页并从那里抓取数据。该网页...

回答 1 投票 0

如何从网站获取需求 html?

感谢您的关注,并为我糟糕的英语感到抱歉。 我一直在尝试从 https://www.skiddle.com/festivals/dates.html 获取 html,但没有成功。我明白,有些部分会下降...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.