我的网站被频繁抓取。我有 robots.txt 如下:
User-agent: *
Allow: .htm$
Disallow: /*?*
Disallow: /mls.php?*
但是“Googlebot 2”不遵守机器人规则。
以下是日志片段:2023-11-03 06:46:47.856 PDT GET 200 6.62KB 433 ms Googlebot 2 https://vanfangchan.com/mls.php?mls=1355081&lang=zh_s
我的 robots.txt 是否正确,有人知道“Googlebot 2”归 Google 所有吗?
您可以使用
Google Search Console
来验证爬虫的合法性,它还可以兼作您的 robots.txt
文件的问题标识符。
如果这不是来自谷歌,你可能想阻止它。根据您的服务器运行位置,有多种方法可以做到这一点(例如,使用
.htaccess rules
或 Web 服务器中的配置来阻止访问)