我想知道,如果我每隔几秒抓取一个网站,DNS 缓存是否需要设置以避免大量 DNS 查找,或者是自动完成的?
实际示例:我有一个脚本,每隔几秒钟检查一次市场上的新产品。假设市场域名是 marketketpalce.com。为了将该域转换为 IP,会向 DNS 服务器发送 DNS 查找。为了避免每次抓取 martketpalce.com 时都发送 DNS 查找,我是否应该做一些特别的事情?
谢谢你
简短的回答是:是的。
我起草了这个答案的几个版本,但有一个根本原因:
您应该控制抓取器的网络行为,以确保加载一致且可靠。如果不实现这一点,抓取会话的正确操作将在现实世界中崩溃。
简短但不完整的列表:
curl
或 wget
)可能会缓存(或更糟糕的是,可能不会)。nscd
有人吗?)