如何抓取我的网站以检测 404/500 错误?

问题描述 投票:0回答:4

是否有任何快速(可能是多线程)的方法来抓取我的网站(单击所有本地链接)以查找 404/500 错误(即确保 200 响应)?

我还希望能够将其设置为仅单击每种类型的链接中的 1 个。 因此,如果我有 1000 个类别页面,它只会点击其中一个。

http://code.google.com/p/crawler4j/是一个不错的选择吗?

我想要一些超级容易设置的东西,而且我更喜欢 PHP 而不是 Java(尽管如果 Java 明显更快,那就没问题了)。

web-crawler crawler4j
4个回答
3
投票
您可以使用旧的且稳定的Xenu工具来抓取您的网站。

你可以配置他使用100个线程,并按状态码对结果进行排序[500�]


0
投票
您可以使用任意数量的开源 Python 项目轻松实现这一点:

    机械化似乎很受欢迎
  1. 美丽的汤和urllib
您可以使用其中一种方法来抓取网站并检查服务器响应,这应该非常简单。

但是,如果您有站点地图(或包含所有 URL 的任何类型的列表),您可以尝试使用 cURL 或 urllib 打开每个站点地图,然后无需爬网即可获取响应。


0
投票
定义“快”? 您的网站有多大? cURL 将是一个好的开始:

http://curl.haxx.se/docs/manual.html

除非您有一个非常巨大的网站并且需要在秒的时间范围内测试它,否则只需将 URL 枚举到列表中并尝试每个 URL。


0
投票
您可以使用OpenCrawler识别404页面及其父页面,以便您有效地修复它们。

https://www.opencrawler.in/

© www.soinside.com 2019 - 2024. All rights reserved.