我使用reddit作为学习scrapy的基础。它运行良好一段时间,但现在它总是返回 301 重定向,即使只是使用“scrapy shell www.reddit.com”调用 shell 也是如此。有什么想法如何解决这个问题吗?
在url中使用https/http方案
scrapy shell https://www.reddit.com
我认为这与 reddit 本身有关,因为它似乎阻止了您的 IP 或用户代理,您需要尝试调整以下内容: 1-提高scrapy设置中的DOWNLOAD_DELAY 2-尝试更改您的用户代理 3-使用scrapy代理
有关设置的更多信息:http://doc.scrapy.org/en/latest/topics/settings.html
对于 scrapy 代理: http://doc.scrapy.org/en/latest/topics/downloader-middleware.html