使用 Nokogiri/xpath 从巨大的 HTML 文件中提取一些文本

问题描述 投票:0回答:1

我正在抓取一个网站,并尝试从 HTML 中提取某些元素。在我正在抓取的网站中,有 script 标签,其中包含一堆信息,但是,这些标签中有一个我感兴趣的部分。该行基本上如下所示:

'image':'http://ut5.example.com/t/231/3_b_643435.jpg',

上面和下面有一些东西。现在,这对于每个页面源来说都是不同的,除了域和一些存储图像的子文件夹之外。 我该如何查看该特定行的源代码,并仅删除 URL?我觉得我需要使用正则表达式,因为 URL 是动态的。

“gsub”方法的作用与我想要搜索的类似,它能够使用/regex/。但是,我不想替换任何内容,我只想使用 /regex/ 在源代码中找到该 URL 并复制它。

html regex web-scraping url
1个回答
1
投票

var regex = /http.+/;

示例
http://jsfiddle.net/Km9ZB/

© www.soinside.com 2019 - 2024. All rights reserved.