在GSheets中使用ImportXML进行抓取时,“导入的内容为空。”错误

问题描述 投票:0回答:1

我需要将图像的源URL从目录的链接网页中删除到Google表格的列中。

我认为使用IMPORTXML函数将是最简单的解决方案,但我得到了#N / A“导入的内容是空的”。每次都错误。

我曾尝试使用this extension来定义XPath,但仍然是同样的错误。

页面的源代码,其中图像源URL是:

<div class="centerer" id="rbt-gallery-img-1">
  <i class="spinner">
    <span></span>
  </i>
  <img data-lazy="//i.example.com/01.jpg" border="0"/>
</div>

所以我希望将“i.example.com/01.jpg”值改为B2,然后是其他图像的相邻单元格的URL。

我使用的功能是:

=IMPORTXML(A2,"//img[@class='centerer']/@data-lazy")

我尝试使用微调器而不是厘米,结果相同。

xpath web-scraping google-sheets
1个回答
0
投票

您可以使用以下XPath-1.0表达式获取字符串i.example.com/01.jpg

substring-after(//div[@class='centerer']/img/@data-lazy,'//')

如果您不需要删除领先的//,则只能使用

//div[@class='centerer']/img/@data-lazy

因此,在第一种情况下,Google-Sheets表达式可能是

=IMPORTXML(A2,"substring-after(//div[@class='centerer']/img/@data-lazy,'//')")

而在第二个它可能是

=IMPORTXML(A2,"//div[@class='centerer']/img/@data-lazy")
© www.soinside.com 2019 - 2024. All rights reserved.