使用wget构建Web图形

问题描述 投票:0回答:1

我正在使用带-r(递归)选项的wget来从根开始爬行和下载所有页面。

出于调试目的,我想输出哪个页面将我路由到另一个页面,例如:https://stackoverflow.com/ - > https://stackoverflow.com/questions

有这样的方法吗?

请注意,我需要明确使用wget。

graph web-crawler wget
1个回答
0
投票

我发现的最佳解决方案现在是使用--warc-file选项,导出我的爬行的warc archive。此格式还存储Referer。

使用python library读取输出我编写了以下简单脚本,以导出带有源/目标列的csv:

import warc
f = warc.open("crawler.warc")
for record in f:
    if record['WARC-Type'] != 'request':
        continue
    for line in record.payload:
        if line.startswith("Referer:"):
            print line.replace("Referer: ", "").strip('\n\r'), ",", record['WARC-Target-URI']
© www.soinside.com 2019 - 2024. All rights reserved.