Wget 镜像 HTML 仅限

问题描述 投票:0回答:2

我有一个小网站,我尝试将其镜像到我的本地计算机,仅包含 html 文件,没有图像,图像附加文件... pdf,..等

我以前从未镜像过网站,并且认为在做任何灾难性的事情之前问这个问题是个好主意。

这是我想要运行的命令,想知道是否还应该添加其他内容。

wget --mirror <url> 

谢谢!

web-scraping wget mirror
2个回答
24
投票

-R
-A
选项用于拒绝接受特定文件类型。

还要考虑下载整个网站所使用的带宽。您可能还想添加

--random-wait
选项。

如果您想跳过所有图像和 pdf,您的命令将类似于:

wget --mirror --random-wait -R gif,jpg,pdf <url>

注意:镜像网站可能会违反政策,所以建议您先检查一下。

来源:


2
投票

还有 wget 补丁添加 mimetypes 过滤选项...

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.