如何使用CLI从OK.ru/video中提取视频URL和标题

问题描述 投票:0回答:1

编辑1:我想使用CLI从“ https://ok.ru/video/c1404844”结果中提取视频网址和标题。

这里要到目前为止我已经完成了:

每个视频相对URL的ERE模式是:/video/\d+,视频绝对URL如下所示:https://ok.ru$videoRelativeURL

我可以使用此命令提取视频网址(我使用uniq,因为许多视频ID出现了3次):

$ curl -s https://ok.ru/video/c1404844 | grep -oP "/video/\d+" | uniq | sed "s|^|https://ok.ru|" | head -5
https://ok.ru/video/1896971373228
https://ok.ru/video/1896971438764
https://ok.ru/video/1896971569836
https://ok.ru/video/1896971635372
https://ok.ru/video/1898415590060

然后我尝试使用pup提取视频相对URL +标题。

编辑3:我用video-card_n ellip代替了类名video-card_n.ellip。但是pup仅输出第二类的属性(video-card_n.ellip),很奇怪:

$ curl -s https://ok.ru/video/c1404844 | pup '.video-card_lk attr{href}, .video-card_n.ellip attr{title}' | head -5
Death.in.Paradise.S02E05.WEBRip.x264-ION10
Death.in.Paradise.S02E02.WEBRip.x264-ION10
Death.in.Paradise.S02E04.WEBRip.x264-ION10
Death.in.Paradise.S02E03.WEBRip.x264-ION10
Death.in.Paradise.S02E06.WEBRip.x264-ION10

它没有用,所以我使用此命令将扩展的html转换为json:

$ curl -s https://ok.ru/video/c1404844 | pup 'json{}' > c1404844.json

现在,我想使用title工具从生成的json文件中从video-card_n ellip中提取href,从video-card_lk中提取jq,但我知道如何使用jq

我希望jq(或pup)输出一个平面文件:URL作为第一列,标题作为第二列。

编辑2:非常感谢@peak对jq的帮助!

DONE:

$ curl -s https://ok.ru/video/c1404844 | pup 'json{}' | jq -r 'recurse | arrays[] | select(.class == "video-card_lk").href,select(.class == "video-card_n ellip").title' | awk '{videoRelativeURL = $0;url="https://ok.ru"gensub("?.*$","",videoRelativeURL); getline title; print url" # "title}' | head
https://ok.ru/video/1898417425068 # Death.in.Paradise.S02E05.WEBRip.x264-ION10
https://ok.ru/video/1898417359532 # Death.in.Paradise.S02E02.WEBRip.x264-ION10
https://ok.ru/video/1898417293996 # Death.in.Paradise.S02E04.WEBRip.x264-ION10
https://ok.ru/video/1898417228460 # Death.in.Paradise.S02E03.WEBRip.x264-ION10
https://ok.ru/video/1898417162924 # Death.in.Paradise.S02E06.WEBRip.x264-ION10
https://ok.ru/video/1898417097388 # Death.in.Paradise.S02E07.WEBRip.x264-ION10
https://ok.ru/video/1898417031852 # Death.in.Paradise.S02E08.WEBRip.x264-ION10
https://ok.ru/video/1898416966316 # Death.in.Paradise.S02E01.WEBRip.x264-ION10
https://ok.ru/video/1898416769708 # Death.in.Paradise.S07E02.The.Stakes.Are.High.WEBRip.x264-ION10
https://ok.ru/video/1898416704172 # Death.in.Paradise.S07E03.Written.in.Murder.WEBRip.x264-ION10
...
json css-selectors jq pup
1个回答
1
投票

使用将顶层页面的HTML转换为JSON后,以下jq过滤器将产生24对,其中前两个显示在下面的“输出”下:

[ [ .. | arrays[] | select(.class == "video-card_n ellip").title],
  [ .. | arrays[] | select(.class == "video-card_lk").href]]
| transpose

输出


[
  [
    "Замечательная пара, красивая песня и чудесное исполнение! Золотые голоса!",
    "/video/2406311403450?st._aid=VideoState_open_top"
  ],
  [
    "#СидимДома",
    "/video/1675421949619?st._aid=VideoState_open_top"
  ],
  ...
© www.soinside.com 2019 - 2024. All rights reserved.