在
robots.txt
上搜索具体信息时,我偶然发现了有关此主题的 Yandex 帮助页面‡。它建议我可以使用 Host
指令告诉爬虫我首选的镜像域:
User-Agent: *
Disallow: /dir/
Host: www.example.com
此外,维基百科文章指出 Google 也理解
Host
指令,但信息不多(即没有)。
在 robotstxt.org,我在
Host
(或维基百科上所述的 Crawl-delay
)上没有找到任何内容。
Host
指令?robots.txt
具体的资源吗?‡ 至少自 2021 年初以来,链接条目不再涉及相关指令。
无法识别的标头将被忽略。
他们称之为“标题”,但这个术语在任何地方都没有定义。但正如在有关格式的部分以及与
User-agent
和 Disallow
同一段落中提到的那样,似乎可以安全地假设“标题”意味着“字段名称”。
所以是的,您可以使用
Host
或 任何其他字段名称。
但请记住:由于 robots.txt 项目未指定它们,因此您无法确定不同的解析器以相同的方式支持该字段。所以你必须手动检查每个支持的解析器。