是否有任何快速(可能是多线程)的方法来抓取我的网站(单击所有本地链接)以查找 404/500 错误(即确保 200 响应)?
我还希望能够将其设置为仅单击每种类型的链接中的 1 个。 因此,如果我有 1000 个类别页面,它只会点击其中一个。
http://code.google.com/p/crawler4j/是一个不错的选择吗?
我想要一些超级容易设置的东西,而且我更喜欢 PHP 而不是 Java(尽管如果 Java 明显更快,那就没问题了)。
你可以配置他使用100个线程,并按状态码对结果进行排序[500�]
但是,如果您有站点地图(或包含所有 URL 的任何类型的列表),您可以尝试使用 cURL 或 urllib 打开每个站点地图,然后无需爬网即可获取响应。