Nokogiri无法解析图像,返回“ lazyload-placeholder”

问题描述 投票:0回答:1

我正在使用Nokogiri解析网页,并想解析出图像URL。这是我的设置:

doc = Nokogiri::XML(open('https://examplesite.com'))

目标网站包含以下代码:

<div class="12345" style="example_style"><div style=""><img class="67890" src="https://examplesite.img.item.content.com/files/124567890/screenshots/00-Preview.jpgformattingstuff" title="Example Image" alt="Example Image" style="left: 0%;"></div></div>

但是,当我跑步时:

puts doc.xpath("//div[@class = '12345']")

我得到以下内容:

<div class="12345" style="example_style"><div style="height:100%" class="lazyload-placeholder"/></div>

为什么我没有得到img类,而是得到“ lazyload-placeholder”?我有什么办法可以克服这个问题,并摆脱图像占位符?

ruby xml-parsing rubygems html-parsing nokogiri
1个回答
0
投票

看起来此页面使用JS加载图像。

所以nokogiri无法解析它。

您可以为此使用水豚with driver

© www.soinside.com 2019 - 2024. All rights reserved.