使用wget构建Web图形

Question

我正在使用带-r（递归）选项的wget来从根开始爬行和下载所有页面。

出于调试目的，我想输出哪个页面将我路由到另一个页面，例如：https://stackoverflow.com/ - > https://stackoverflow.com/questions

有这样的方法吗？

请注意，我需要明确使用wget。

Answer 1

我发现的最佳解决方案现在是使用--warc-file选项，导出我的爬行的warc archive。此格式还存储Referer。

使用python library读取输出我编写了以下简单脚本，以导出带有源/目标列的csv：

import warc
f = warc.open("crawler.warc")
for record in f:
    if record['WARC-Type'] != 'request':
        continue
    for line in record.payload:
        if line.startswith("Referer:"):
            print line.replace("Referer: ", "").strip('\n\r'), ",", record['WARC-Target-URI']

使用wget构建Web图形

问题描述投票：0回答：1

1个回答

最新问题

使用wget构建Web图形

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1