有时我们没有我们想要的API,这是其中一种情况。
我想从某个网站提取某些信息,因此我正在考虑通过在我的服务器中使用CRON作业以编程方式对网站内的数百个页面使用CURL请求。
然后缓存响应并在一天或多天后再次触发它。
这可能被视为某种类型的攻击,服务器可能会在很短的时间内从同一服务器IP看到数百个对某些站点的呼叫?
可以说,500卷发?
你会推荐我什么?也许利用curl的sleep
命令来卷曲以减少这些请求的频率?
在很多情况下,您的脚本最终会被网站的防火墙阻止。如果允许这样做,您可以采取的最佳步骤之一是联系网站所有者并让他们知道您想要做什么。如果不可能,请阅读他们的服务条款,看看是否严格禁止。
如果在进行这些调用时时间不重要,那么,是的,您绝对可以利用sleep
命令来延迟每个请求之间的时间,如果您发现需要每秒减少一些请求,我会建议它。
你绝对可以做到这一点。但是你应该记住一些事情:
sleep
命令来规避这个问题。正如@RyanCady所提到的,最好的解决方案可能是联系网站所有者并解释您在做什么,看看他们是否能满足您的要求。