有两种简单的方法可以显着减少爬网您网站的机器人数量:
在您的根目录中放置一个robots.txt文件。这为机器人提供了指导。这将阻止许多bot,但不会阻止伪装成真实用户的bot(这就是Cloudflare之所以如此出色的原因,因为它确实阻止了几乎所有不良的bot。但是,robots.txt通常就足够了。例如,您是否想要阻止您使用的特定目录中的所有漫游器:
用户代理:*不允许:/
这将阻止all机器人,包括Google等合法机器人。除了站点的admin目录或其他一些目录之外,通常不需要这样做。
以下内容将完全阻止Googlebot:
User-agent: Googlebot
Disallow: /
鉴于上一个示例,您需要分析您的Google Analytics(分析)数据并查找可疑的用户代理,并使用代理名称从上方替换Googlebot。