如何防止Googlebot淹没网站?

问题描述 投票:0回答:7

我正在中间的专用服务器上运行一个内容很多但流量很少的网站。

偶尔,Googlebot 会踩踏我们,导致 Apache 内存耗尽,导致服务器崩溃。

如何避免这种情况?

performance googlebot
7个回答
9
投票
  • 在谷歌网站管理员工具上注册,验证您的网站并限制谷歌机器人
  • 提交站点地图
  • 阅读 google 指南:(if-Modified-Since HTTP 标头)
  • 使用 robot.txt 限制机器人对网站某些部分的访问
  • 制作一个脚本,每隔$[时间段]更改robot.txt,以确保机器人永远无法同时抓取太多页面,同时确保它可以抓取总体上的所有内容

9
投票

您可以使用谷歌的网站管理员工具设置您的网站的抓取方式。 具体看一下这个页面:更改 Google 的抓取速度

您还可以使用 robots.txt 文件限制 Google 机器人搜索的页面。 有一个可用于

crawl-delay
的设置,但 Google 似乎不支持


1
投票

使用 Google 网站管理员工具注册您的网站,该工具可让您设置 googlebot 应尝试对您的网站建立索引的频率和每秒请求数。 Google 网站管理员工具还可以帮助您创建 robots.txt 文件以减少网站的负载


1
投票

请注意,您可以通过 Google 网站管理员工具(在“网站设置”下)设置抓取速度,但他们只保留该设置六个月!所以你必须每六个月登录一次才能重新设置。

Google 中的此设置已更改。该设置现在仅保存 90 天(3 个月,而不是 6)。


0
投票

您可以在google的站长工具中配置抓取速度。


0
投票

限制抓取速度:

  • 在 Search Console 主页上,点击您想要的网站。

  • 单击齿轮图标“设置”,然后单击“站点设置”。

  • 在抓取速率部分中,选择所需的选项,然后根据需要限制抓取速率。

新的抓取速度有效期为 90 天。


0
投票

今年是2024,Search Console 中的 Googlebot 抓取速度工具即将消失。 该工具将于 2024 年 1 月 8 日消失,因为 Google 表示它不再有用。

阅读这篇文章: https://searchengineland.com/googlebot-crawl-rate-tool-in-search-console-is-going-away-435012

这是限制 Googlebot 使用响应标头的“新”方法: https://developers.google.com/search/docs/crawling-indexing/reduce-crawl-rate

© www.soinside.com 2019 - 2024. All rights reserved.