如何在robots.txt文件中使用*通配符?

问题描述 投票:0回答:1

我的网站被频繁抓取。我有 robots.txt 如下:

User-agent: *
Allow: .htm$
Disallow: /*?*
Disallow: /mls.php?*

但是“Googlebot 2”不遵守机器人规则。

以下是日志片段:2023-11-03 06:46:47.856 PDT GET 200 6.62KB 433 ms Googlebot 2 https://vanfangchan.com/mls.php?mls=1355081&lang=zh_s

我的 robots.txt 是否正确,有人知道“Googlebot 2”归 Google 所有吗?

web-crawler
1个回答
0
投票

您可以使用

Google Search Console
来验证爬虫的合法性,它还可以兼作您的
robots.txt
文件的问题标识符。

如果这不是来自谷歌,你可能想阻止它。根据您的服务器运行位置,有多种方法可以做到这一点(例如,使用

.htaccess rules
或 Web 服务器中的配置来阻止访问)

© www.soinside.com 2019 - 2024. All rights reserved.