删除wget输出中的重复行

Question

我想删除wget输出中的重复行。

我用这个代码

并输出这样的

http://www.sawfirst.com/wp-content/uploads/2018/03/Selena-Gomez-12.jpg

http://www.sawfirst.com/wp-content/uploads/2018/02/Selena-Gomez-760.jpg

我想删除重复的输出行。

Answer 1

在某些情况下，像Beautiful Soup这样的工具变得更合适。

试图只用wget和grep做这个就变成了一个有趣的练习，这是我天真的尝试，但我很确定这是更好的方法

$ wget -q "http://www.sawfirst.com/selena-gomez" -O -|
grep -Eo "(http|https)://[a-zA-Z0-9./?=_-]*" |
grep -i "selena-gomez" |
while read url; do
    if [[ $url == *jpg ]]
    then
        echo $url
    else
        wget -q $url -O - |
        grep -Eo "(http|https)://[a-zA-Z0-9./?=_-]*" |
        grep -i "selena-gomez" |
        grep "\.jpg$" &
    fi
done | sort -u > selena-gomez

在第一轮：

wget -q "http://www.sawfirst.com/selena-gomez" -O -|
grep -Eo "(http|https)://[a-zA-Z0-9./?=_-]*" |
grep -i "selena-gomez"

将提取与所需名称匹配的URL，在while循环中可能是$url已经以.jpg结尾的情况，因此它将仅打印而不是再次获取内容。

这种方法只是深入到1级，并试图加快它使用&的目的，最后意图并行执行多个请求：

grep "\.jpg$" &

需要检查&是否锁定或等待所有后台作业完成

它以sort -u结尾，以返回找到的唯一项目列表。

Answer 2

更好的尝试：

mech-dump --images "http://www.sawfirst.com/selena-gomez" |
    grep -i '\.jpg$' |
    sort -u

为Debian和衍生品打包libwww-mechanize-perl。

输出：

http://www.sawfirst.com/wp-content/uploads/2018/03/Selena-Gomez-12.jpg
http://www.sawfirst.com/wp-content/uploads/2018/02/Selena-Gomez-760.jpg
http://www.sawfirst.com/wp-content/uploads/2018/02/Selena-Gomez-404.jpg
...

删除wget输出中的重复行

问题描述投票：0回答：2

2个回答

输出：

最新问题

删除wget输出中的重复行

问题描述 投票：0回答：2

2个回答

输出：

最新问题

问题描述投票：0回答：2