我正在使用Scrapy-splash
,我的内存有问题。我可以清楚地看到docker
python3
使用的记忆逐渐增加,直到PC冻结。
无法弄清楚为什么它的行为如此,因为我有CONCURRENT_REQUESTS=3
并且没有办法3 HTML
消耗10GB RAM。
因此,有一种解决方法可以将maxrss
设置为合理的值。当RAM使用具有此值时,将重新启动docker以刷新RAM。
但问题是,在docker
下降的时候,scrapy
继续发送请求所以有几个urls
没有刮。重试中间件正试图立即重试这些请求然后放弃。
[scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET https://www.ex.com/eiB3t/ via http://127.0.0.1:8050/execute> (failed 2 times): [<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]
2019-03-30 14:28:33 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET https://www.ex.com/eiB3t/
所以我有两个问题
Scrapy
设置为retry
请求(让我们说分钟,所以docker
有时间重启)?