scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

如何在具有不同内容的网站中废弃容器?

我想废弃这个网站。 https://www.dhgate.com/wholesale/electronics-robots/c103032.html我已经构建了一个scrapy代码:从urllib.parse导入scrapy导入urljoin类DhgateSpider(scrapy ....

回答 1 投票 0

如何使用scrapy选择下一个节点

我有html看起来像这样: Text 1 Some info Text 2 ... I understand how to extract using scrapy information ...

回答 2 投票 10

Scrapy - 在第一次请求后禁用Selenium

我正在从网站上抓取网址,但只有第一个请求需要硒而另一个请求不需要。是否有可能在废料处理过程中关闭Selenium?我想这样做,因为,因为你......

回答 1 投票 1

使用保存的html页面使用scrapy进行报废

我正在寻找一种方法来使用我在计算机上保存的html页面使用scrapy。就我而言,我收到一个错误:requests.exceptions.InvalidSchema:找不到'file:///的连接适配器...

回答 1 投票 2

scrapy-cluster:socket.error:[Errno 98]地址已被使用

我试图在这个快速启动后运行scrapy-cluster。我收到了以下错误。 #python rest_service.py 2017-02-01 03:02:20,009 [rest-service]信息:成功连接到redis 2017 -...

回答 2 投票 1

Scrapy链接已爬行但未刮擦

我在电子商务网站Cdiscount上制作了一个刮刀来抓取与“au-quotidien”相关的所有类别。机器人应该从顶层菜单开始,然后深入访问第二层,然后是第三层,......

回答 1 投票 3

ppt没有安装Scrapy命令行工具

我通过sudo pip install scrapy安装了scrapy。它将python模块安装到site-packages中,我可以在python环境中导入scrapy。但是,尝试使用命令行工具...

回答 5 投票 2

用于原子命名空间的scrapy的Xpath

我试图使用scrapy从xml文件中抓取数据。该文件的结构如下: HTTP://示例.com /.../ idset&...

回答 1 投票 0

Scrapy FormRequest返回400错误代码

我正试图在以下网站上进行scrapy,其中分页是通过AJAX请求。 http://studiegids.uva.nl/xmlpages/page/2014-2015/zoek-vak我发送FormRequest来访问不同的...

回答 2 投票 4

爬行:“查询字符串参数”和“请求有效负载”之间的差异

我正在尝试使用Scrapy抓取ajax网站,网址是http://www.target.com/p/bounty-select-a-size-white-paper-towels-12-mega-rolls/-/A- 14920157#prodSlot = medium_1_2&term = bounty我的目标是......

回答 1 投票 3

Xpath - 包含文本值的表的多个嵌套div

我在网站上遇到了复杂的html结构,我想从中提取文本信息。网站有以下结构:

回答 2 投票 0

按顺序运行Multiple Spider

类Myspider1 #do something ....类Myspider2 #do something ...以上是我的spider.py文件的架构。我试图先运行Myspider1,然后运行Myspider2倍数......

回答 2 投票 4

Scrapy中的复杂评论

我正在使用Scrapy。我想在页面上搜索评论:https://www.thingiverse.com/thing:2/comments我会刮更多的网站,所以我想拥有灵活的代码。我不知道怎么刮...

回答 1 投票 0

来自“错误:蜘蛛错误处理”的位置

我正在阅读之前蜘蛛发射的日志。我很想知道这个例外的位置以及我如何采取行动:2019-04-12 22:00:55 [scrapy.core.scraper]错误:蜘蛛错误......

回答 1 投票 0

无法使用scrapy抓取某些网站

我过去2年一直在使用scrapy。现在有一些问题,我无法找出这是什么问题。我正在爬行大约80个站点。所有这些都被抓取,但大约有6个网站没有被抓取。我在用 ...

回答 1 投票 0

在Scrapy类中更正来自多个解析def的输出

我从一个页面提取数据,然后从此页面迭代URL并从另一个页面获取另一个信息。但输出不正确 - 请参见截图。来自第二个'def'的物品落入......

回答 1 投票 0

如何使用Scrapy获取stat(item_scraped_count)?

我想获取已删除项目的总计数,但我总是从scrapy.stats导入stats类错误MySpider(Spider):name =“myspider”start_urls = [“http://example.com”] ...

回答 1 投票 0

如何使用scrapy提取表内的项目

我想提取下面链接中表中列出的所有函数:python函数列表我已经尝试使用chrome开发人员控制台来获取要在文件中使用的确切xpath ...

回答 2 投票 0

在scrapyd安装后找不到Scrapyd-deploy命令

我创建了几个我打算与scrapyd同时运行的网络蜘蛛。我首先使用以下命令在Ubuntu 14.04中成功安装了scrapyd:pip install scrapyd,当我运行时......

回答 2 投票 7

Scrapy 404错误:未处理或不允许HTTP状态代码

我正在尝试使用scrapy刮取网站coursetalk,我首先尝试使用蜘蛛模板并得到404错误:2017-12-29 23:34:30 [scrapy] DEBUG:忽略响应<404 https://万维网....

回答 2 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.