scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Python Scrapy:allowed_domains 从数据库添加新域

我需要向 allowed_domains 添加更多域,因此我没有收到“已过滤的异地请求”。 我的应用程序获取从数据库获取的网址,因此我无法手动添加它们。 我试图覆盖...

回答 1 投票 0

Scrapyd:如何用一个命令取消所有作业?

我正在运行超过 40 个蜘蛛,到目前为止,这些蜘蛛都是通过 cron 调度并通过 scrapy scrapy 爬行发布的。由于多种原因,我现在切换到 scrapyd,其中之一是能够查看哪些作业是

回答 1 投票 0

Scrapinghub shub 部署错误 - 错误:部署失败(400):项目:non_field_errors

当我尝试将其部署在云中并收到以下错误时。 错误:部署失败 (400): 项目:non_field_errors 我当前的设置如下。 def __init__(self, startUrls, *ar...

回答 2 投票 0

Scrapy CrawlSpider 问题

导入scrapy 从 scrapy.spiders 导入 CrawlSpider,规则 从 scrapy.linkextractors 导入 LinkExtractor 产品蜘蛛类(CrawlSpider): 名称=“产品蜘蛛”

回答 1 投票 0

scrapy 如何从 scrapy 项目内部获取项目名称

对于某些导入问题,我想知道是否有任何变量可以从 scrapy 项目内部调用来获取项目名称,因为我一直在进行导入,例如 项目名称.东西.. 还有...

回答 3 投票 0

从 dockerhub 拉取镜像时出现 Docker Authentication required 错误

我在 Windows 上并尝试使用 powershell 提取 spcrapy-splash 基础映像。 命令是: docker pull scrapinghub/splash 我正在运行 docker 桌面。我做了 docker 登录并成功登录...

回答 3 投票 0

如何在 VS Code 中调试 Scrapy?

问题是我无法在 VS Code 中调试 Scrapy 爬虫。问题是,当我开始调试时,它总是会在我的导入之一上中断。当然,我玩了很多导入,以便......

回答 1 投票 0

如何获取scrapyrt的POST元数据?

在scrapyrt的POST文档中,我们可以传递这样的JSON请求,但是如何访问start_requests中的类别和项目等元数据? { “要求”: { “元”:{ ...

回答 2 投票 0

scrapy:从选择器中提取属性

我对初学者的问题感到抱歉,但这让我发疯: 想象一下,我有一个指向一组 span 元素的选择器: ori=response.xpath("//div[@class='比较- row']//div[包含(@

回答 1 投票 0

由于 Cloudflare (clutch.co) 而出现 Scrapy 403 响应

我正在尝试从clutch.co 上抓取一些有关不同机构的信息。当我在浏览器中查找 url 时,一切都很好,但使用 scrapy 却给出了 403 响应。从我在

回答 1 投票 0

我的代码返回一个正确的评论和 NULL,而不是其他评论

这是代码 导入scrapy 类 YelpscrapeSpider(scrapy.Spider): 名称 = 'yelpscrape' start_urls = ['https://www.yelp.com/biz/beretta-san-francisco?osq=Restaurants'] def 解析...

回答 1 投票 0

Scrapy Python 脚本引发 TypeError(“不能混合 str 和非 str 参数”)

嗨,我是编程新手,遇到了这个看似极其常见的问题,但老实说,我看到的答案都没有对我的情况有帮助。 我的代码是: 导入 json 导入scrapy 班级

回答 1 投票 0

检索主题标签的所有推文和转发用户 ID

如何根据主题标签使用元数据(推文文本 - 用户 ID - 转发用户 ID)抓取推文?我正在尝试使用 tweepy api 代码: 导入tweepy 导入 csv 将 pandas 导入为 pd ####输入你的

回答 1 投票 0

如何迭代 URL 列表来抓取 Scrapy 中的数据?

导入scrapy 类 oneplus_spider(scrapy.Spider): 名称='one_plus' 页码=0 开始网址=[ 'https://www.amazon.com/s?k=samsung+mobile&page=3&qid=1600763713&ref=sr...

回答 1 投票 0

如何从收到的响应中抓取html代码?

我正在尝试使用 scrapy 和splash 抓取网站。 我想从图像中出现的响应中抓取特定的 html 代码。 这是带有标题的响应: 这是重新...

回答 1 投票 0

我不明白如何在表格中打印scrapy数据

我已经看到了几件事,但我无法在表格或.csv 中播放它以在屏幕上打印表格,有人可以帮助我吗? 我迷路了 导入scrapy 类 SinonimoSpider(scrapy.Spider): 南...

回答 1 投票 0

如何从新标签页打开爬取数据

我正在尝试通过scrapy-selenium抓取此网页https://www.goo-net.com/php/search/summary.php的产品详细信息。 因为要爬取每个商品的详细信息,所以爬取...

回答 1 投票 0

如何使用 Python 从 eBay 抓取/下载所有产品图像?

我只能从 eBay 网站抓取一张全分辨率图像的 URL;我无法捕获所有其他图像的 URL。 我正在寻找一个可以抓取或下载所有即时消息的脚本...

回答 1 投票 0

我的scrapy代码无法抓取,这是怎么回事?

我尝试从 https://www.soccerstats.com 抓取一些信息。我下面的代码没有从该网站上抓取任何内容。输出是: {'BOT_NAME': 'superlig', 'NEWSPIDER_MODULE': 'superlig.spider...

回答 1 投票 0

我的scrapy代码无法工作,但一切似乎都正常

您好,我尝试从 www.soccerstats.com 抓取一些信息。下面的代码没有从该网站抓取任何信息。输出是: {'BOT_NAME': 'superlig', 'NEWSPIDER_MODULE': 'superlig.spiders', '

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.