scrapy-spider 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

使用Scrapy创建网站地图

是否可以使用Scrapy来生成一个网站的sitemap,包括每个页面的URL和它的leveldepth(我需要从主页到那里的链接数量)?其格式是...

回答 1 投票 4

如何从停止的位置重新启动Spider?

示例:如果蜘蛛在第15页上引发了异常,它应该能够在第15页重新启动。当我浏览Scrapy文档时,在Jobs:暂停和恢复爬网主题下-我运行了...]]

回答 1 投票 1

比较scrapy中的关键字和元关键字吗?

这是我的蜘蛛文件。在提取文章之前,我想检查一下我提供的关键字之一是否与文章链接的meta关键字匹配。因此,这段代码似乎在爬网,但绝对不是...

回答 2 投票 0

Scrapy:蜘蛛什么都不返回

这是我第一次创建蜘蛛,尽管付出了很多努力,但它仍然没有返回到我的csv导出文件。我的代码是:从scrapy.contrib.spiders导入CrawlSpider,从scrapy.contrib ....导入规则。...

回答 2 投票 0

Scrapy-如何将网站不同部分的数据结合在一起

我正在构建爬虫。现在,我希望它浏览该站点上所有可用的页面,并[i]填充每种产品的许多数据字段,并且[ii]对于每种产品,钻入...

回答 2 投票 0

将参数传递给Scrapy python中的process.crawl

我想获得与此命令行相同的结果:scrapy crawllinkedin_anonymous -a first = James -a last = Bond -o output.json我的脚本如下:从...导入scrapy ...

回答 2 投票 23

通过扭曲的inlineCallbacks运行Scrapy蜘蛛

我有ImportError:没有名为'spiders'的模块,因此我认为在进行蜘蛛调用时没有环境变量。但是我不完全了解如何使它们正常工作。基本上,...

回答 1 投票 1

入门帮助-废弃电子商务网站

我是Scrapy和网络爬虫的新手。 我正在尝试从印度的电子商务网站中删除数据,但无法这样做。 我正在尝试从以下超链接中提取文本: Xpath Css选择器对我...

回答 1 投票 0

调用外部api的最佳做法是什么?

因此,假设我想编写一个使用Facebook API来计算网站每个页面上的喜欢的蜘蛛。 如果我导入请求库,我可以按如下方式调用Facebook图形API。 但是...

回答 1 投票 1

更改Scrapy CrawlerRunner的设置

我正在尝试更改Scrapy的设置。之前,我已经成功为CrawlerProcess完成了此操作。但是我似乎无法使它适用于CrawlerRunner。该日志应被禁用,但我...

回答 1 投票 1

Scrapy飞溅返回空列表

我想刮的图像和衣服的搭配Scrapy和飞溅的一些产品信息。我想只用产品(所以没有模型)来获取图像。如从https这一形象://www2.hm ....

回答 2 投票 0

问题使用scrapy登录网站,

我要登录一个网站,然后放弃一些细节,但使用scrapy无法登录。这里是我的代码:从scrapy进口蜘蛛从LXML导入HTML scrapy.http进口FormRequest从scrapy ....

回答 1 投票 0

在该文件/地方应该Scrapy处理数据?

Scrapy有几点/地方允许加工刮数据:蜘蛛,项目和蜘蛛中间件。但我不明白的地方,我应该这样做的权利。我可以处理所有刮下一些数据...

回答 2 投票 0

坚持从网页中提取标题和下页网址

我试图提取这些搜索结果以及搜索结果的翻页每个RV单位详细页面的链接,所以我可以链接到他们的网站上有每进口RV单位...

回答 1 投票 1

CrawlSpider不执行回调

我已经通过扩展CrawlSpider创建的蜘蛛。当蜘蛛运行,发现文章页面我想获得一个链接到作者的个人资料,并在个人资料页面的请求,并与parse_author解析它...

回答 2 投票 0

如何让scrapy爬虫不要成倍汇总结果

所以我是很新,Python和我试图做一个scrapy履带从现场提取的经销商的数据。但我没有得到我希望的结果。这是我的代码:class QuotesSpider(scrapy ....

回答 1 投票 1

从使用Amazon scrapy刮产品规格

你好,我想刮链接的产品页面上可用的产品规格表:https://www.amazon.com/dp/B07HJ41HCF为此我已经写在scrapy以下蜘蛛。高清...

回答 1 投票 1

Scrapy - 在运行时根据属性更改设置提供

我有乐趣scrapy,在这个项目上,为Facebook的职位蜘蛛工作。我想在运行时改变CONCURRENT_REQUESTS参数settings.py中,如果一个布尔属性...

回答 2 投票 0

Scrapy蜘蛛不crawlera中间件工作

我写了一个蜘蛛抓取一个大型网站。 IM托管它scrapehub和现在用的crawlera添加上。没有crawlera我的蜘蛛scrapehub就好运行。当我切换到crawlera ...

回答 2 投票 0

蟒蛇蜘蛛不收任何刮网址

我正在写从一个CSV文件组成URL的蜘蛛。通过执行它,没有项目被刮掉。这里是我的蜘蛛代码:从parsel进口选择进口scrapy导入CSV导入请求......

回答 1 投票 1

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.