Scrapy在哪里实际执行html请求?

问题描述 投票:0回答:1

我在Python3中使用Scrapy(Scrapy == 1.6.0)库。我想知道,在代码中Scrapy实际上在哪里做HTML请求?我想在那里设置断点,以便我可以确切地看到实际传递的header / cookies / urls /和用户代理。

此外,收到的答复究竟在哪里?现在我的蜘蛛没有找到任何页面,所以我想我得到的是空白HTML文档或403错误,但是我不知道在哪里要确认这一点。

任何熟悉scrapy库的人都能指出我在代码中的确切位置可以查看这些参数吗?

python web-scraping scrapy
1个回答
0
投票

我相信你可以查看scrapy / core / engine.py方法_download。虽然我建议你使用scrapy shell。它将允许您执行特定请求,检查响应,在浏览器中打开响应以查看Scrapy收到的内容。此外,通过更多调整,您可以在shell中导入蜘蛛并调用蜘蛛的特定方法并在其中放置断点。

如果您的蜘蛛无法找到任何页面,那么问题可能出在您的蜘蛛上,而不是框架上。

© www.soinside.com 2019 - 2024. All rights reserved.