我正在使用带-r(递归)选项的wget来从根开始爬行和下载所有页面。
出于调试目的,我想输出哪个页面将我路由到另一个页面,例如:https://stackoverflow.com/ - > https://stackoverflow.com/questions
有这样的方法吗?
请注意,我需要明确使用wget。
我发现的最佳解决方案现在是使用--warc-file
选项,导出我的爬行的warc archive。此格式还存储Referer。
使用python library读取输出我编写了以下简单脚本,以导出带有源/目标列的csv:
import warc
f = warc.open("crawler.warc")
for record in f:
if record['WARC-Type'] != 'request':
continue
for line in record.payload:
if line.startswith("Referer:"):
print line.replace("Referer: ", "").strip('\n\r'), ",", record['WARC-Target-URI']