我正在中间的专用服务器上运行一个内容很多但流量很少的网站。
偶尔,Googlebot 会踩踏我们,导致 Apache 内存耗尽,导致服务器崩溃。
如何避免这种情况?
您可以使用谷歌的网站管理员工具设置您的网站的抓取方式。 具体看一下这个页面:更改 Google 的抓取速度
您还可以使用 robots.txt 文件限制 Google 机器人搜索的页面。 有一个可用于
crawl-delay
的设置,但 Google 似乎不支持。
使用 Google 网站管理员工具注册您的网站,该工具可让您设置 googlebot 应尝试对您的网站建立索引的频率和每秒请求数。 Google 网站管理员工具还可以帮助您创建 robots.txt 文件以减少网站的负载
请注意,您可以通过 Google 网站管理员工具(在“网站设置”下)设置抓取速度,但他们只保留该设置六个月!所以你必须每六个月登录一次才能重新设置。
Google 中的此设置已更改。该设置现在仅保存 90 天(3 个月,而不是 6)。
您可以在google的站长工具中配置抓取速度。
限制抓取速度:
在 Search Console 主页上,点击您想要的网站。
单击齿轮图标“设置”,然后单击“站点设置”。
在抓取速率部分中,选择所需的选项,然后根据需要限制抓取速率。
新的抓取速度有效期为 90 天。
今年是2024,Search Console 中的 Googlebot 抓取速度工具即将消失。 该工具将于 2024 年 1 月 8 日消失,因为 Google 表示它不再有用。
阅读这篇文章: https://searchengineland.com/googlebot-crawl-rate-tool-in-search-console-is-going-away-435012
这是限制 Googlebot 使用响应标头的“新”方法: https://developers.google.com/search/docs/crawling-indexing/reduce-crawl-rate