scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Scrapy如何保存抓取状态?

我能够保存我的抓取状态,Scrapy 成功地从我切断它的地方继续。每次重新启动蜘蛛时,我都保持 start_urls 不变,即 start_u 的顺序和列表...

回答 2 投票 0

Scrapy 无法抓取网站

我已经研究了几天了,但仍然找不到答案。 我正在使用 scrapy (python) 来抓取这个网页。 这是我的目录: 酒店/ |_ scrapy.cfg |_ 酒店/ |_ __init__...

回答 2 投票 0

Scrapy 安全提取物品的方法

从页面中提取项目信息的最佳安全方法是什么? 我的意思是,有时页面中可能缺少某个项目,最终会破坏爬虫。 看这个例子: 对于可可...

回答 1 投票 0

Scrapy 中的分页规则

我正在使用Scrapy从网站提取信息。这是蜘蛛代码(部分): 类 bsSpider(CrawlSpider): 名称 =“bsSpider” def __init__(self, *args, **kwargs): 超级(

回答 1 投票 0

使用 Scrapy 抓取“paginasamarillas.es”

您好,我使用 scrapy 来抓取 paginasamarillas.es 但我没有得到结果,这些是我的代码。请您帮我解决这个问题吗? 从 scrapy.item 导入项目、字段 类 AyellItem(项目): 名字=菲...

回答 1 投票 0

Scrapy 仅输出开括号

我正在尝试抓取数学/科学/经济学页面下所有可汗学院页面的标题和 URL。然而,目前它只输出一个开括号,在此之前它会......

回答 1 投票 0

Scrapy 爬虫不处理 XHR 请求

我的蜘蛛只爬行前 10 页,所以我假设它没有通过请求进入加载更多按钮。 我正在抓取这个网站:http://www.t3.com/reviews。 我的蜘蛛代码:

回答 1 投票 0

为什么我在html源代码上找不到评论源代码?

我正在使用 Google Chrome 并尝试抓取此网页上的所有评论。 http://www.nytimes.com/roomfordebate/2014/09/24/protecting-student-privacy-in-online-learning/student-data-collection-i...

回答 2 投票 0

Scrapy:表中链接的 xpath

我想使用scrapy从此表中提取一些书籍链接。 该表如下所示: 我想使用 scrapy 从此表中提取一些书籍链接。 表格看起来像这样: <table id="table_text"> <tbody> <tr > <td>15/02/2014</td> <td><a href="/book_1.html">Book 1</a></td> <td>The Author</td> <td> <a href="/tag1">tag1</a> <a href="/tag2">tag2</a> </td> <td>Genre</td> </tr> 提取的链接应该是: /book_1.html 我使用的选择器是 def parse(self, response): hxs = Selector(response) hxs = Selector(response) links = hxs.xpath('//table[@id="table_text"]//tr//td[2]//a//@href') 但是 print links 显示空输出:[] 我想知道我使用的xpath有什么问题吗? 根据您提供的信息,您的 XPath 工作正常。它可以简化为 //table[@id="table_text"]//tr/td[2]/a/@href 但是您的版本返回正确的节点。 当 scrapy 遇到意外行为时,请尝试始终检查它收到的 HTML 是否是您期望的 HTML。 使用浏览器和 scrapy 检索的 HTML 可能会有所不同,因为 scrapy 不处理 Javascript(并且某些浏览器会尝试清理 HTML)。 这就是为什么你应该检查response.body的内容是否是你所期望的。如果不是,您需要找到解决方法:) 2014年2月15日

回答 1 投票 0

Scrapy:存储/抓取当前的start_url?

背景(可跳过): 我目前正在运行两个不同的 scrapy 爬虫。 第一个检索有关产品 x 的信息,第二个检索有关产品 x 的其他信息,即...

回答 1 投票 0

如何使用Python填写JavaScript表单?

我想用Python来填写这个表格。 我尝试使用 Mechanize,但这是一个 Microsoft 表单,它使用 JavaScript,没有表单标签,也没有 GET/POST URL。也许 BeautifulSoup/Selenium 可以做到这一点,...

回答 1 投票 0

快速大规模抓取 Facebook 粉丝页面的数字 ID [已关闭]

许多 Facebook 粉丝页面现在采用以下格式 - https://www.facebook.com/TiltedKiltEsplanade,其中“TiltedKiltEsplanade”是页面所有者声称的名称的示例。然而,...

回答 1 投票 0

如何使用Scrapy抓取有点奇怪的URL

所以基本上我想使用 Scrapy.org 来抓取论坛。我遇到的问题是每个线程的链接都有点沿着这条线http://mywebsite.com/forum/My-Thread-Name-t21...

回答 1 投票 0

更新数据库中已抓取价格的逻辑

我正在使用scrapy框架从各个网站上抓取手机的名称、价格和规格。我已经成功抓取了所有数据并将其存储在MySQL数据库中。 表结构 身份证号||

回答 1 投票 0

Scrapy:导入错误:没有名为 items 的模块

当我尝试运行 scrapy 时,出现此错误 ImportError: No module named items 我刚刚在 items.py 中添加了我想要抓取的内容的列表,在 Spider.py 中我已经导入了来自 s 的类...

回答 6 投票 0

Scrapy 未在 Docker 中运行

我正在尝试在 docker 容器中运行我的 scrapy 脚本 main.py 。 该脚本按顺序运行 3 个蜘蛛,并将其抓取的项目写入本地数据库。 这是main.py的源代码: 来自 tw...

回答 1 投票 0

Scrapy 返回的空白值不一致

我正在从以下网址抓取数据:https://www.rugbypass.com/live/bristol-vs-leicester/stats/?g=938938 这是我关心的 Scrapy Spider 部分: match_summary_stats = 响应...

回答 1 投票 0

使用 Scrapy-Crawler 和 LinkExtractor-Rules 抓取所有页面

我正在尝试使用爬虫程序通过 scrapy-vertical 方法来抓取 dockerhub.com,我需要定义一个规则来收集具有以下模式的所有页面: https://hub.docker.com/search...

回答 1 投票 0

设置日志级别对scrapy没有任何影响

我正在使用 CrawlerProcess 运行 scrapy 爬虫,如下所示: 日志记录.basicConfig(级别=日志记录.INFO) l =logging.getLogger("爬行") 尝试: p = CrawlerProcess(get_project_settings(...

回答 1 投票 0

使用 scrapy 从网站抓取数据时如何获得干净的结果

我是Python新手,我正在尝试从黄页中抓取数据。我能够刮掉它,但得到的结果很混乱。 这是我得到的结果: 2013-03-24 20:26:47+0800 [scrapy] 信息:Scrapy...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.