使用 Nokogiri/xpath 从巨大的 HTML 文件中提取一些文本

Question

我正在抓取一个网站，并尝试从 HTML 中提取某些元素。在我正在抓取的网站中，有 script 标签，其中包含一堆信息，但是，这些标签中有一个我感兴趣的部分。该行基本上如下所示：

'image':'http://ut5.example.com/t/231/3_b_643435.jpg',

上面和下面有一些东西。现在，这对于每个页面源来说都是不同的，除了域和一些存储图像的子文件夹之外。我该如何查看该特定行的源代码，并仅删除 URL？我觉得我需要使用正则表达式，因为 URL 是动态的。

“gsub”方法的作用与我想要搜索的类似，它能够使用/regex/。但是，我不想替换任何内容，我只想使用 /regex/ 在源代码中找到该 URL 并复制它。

Answer 1

1
投票

var regex = /http.+/;

示例

http://jsfiddle.net/Km9ZB/