Google Sheet 导入 XML 公式、网页抓取类别 ID

问题描述 投票:0回答:1

我需要创建导入 XML 公式方面的帮助。我有一个部分更改的 URL,它包含一个隐藏的类别 ID,该 ID 根据文章的不同而变化。 URL 并不简单,而是一个又长又复杂的字符串。具有唯一的标识符

enter image description here

“categoryId”:“xxxxxx”(见截图)

我似乎不知道如何只提取猫。 ID 号,因为它不是 URL 的直接部分,而是嵌入在较长的结构中。

我尝试简单地复制 XML 路径

=IFNA(regexextract(IMPORTXML(B3,"/html/body/script[1]/text())))","[0-9]+")))

并分配清晰的标识符。

=IFNA(regexextract(IMPORTXML(B2,"//script[contains(., 'categoryId')]/text()")))

Tab Try 2 中的解决方法,即我首先提取脚本内容,然后在脚本内容中查找categoryId,也没有给我所需的结果。

=IMPORTXML(B2, "/html/body/script[1]/text()")
=REGEXEXTRACT(C2, """categoryId"":""(\d+)""")

有人有其他解决方案可以看到我做错了什么吗? 谢谢你

谷歌表格

web-scraping google-sheets-formula
1个回答
0
投票

这是您可以测试的一种方法:

=let(Σ,tocol(array_constrain(importdata(B2),20,200),1),
 filter(choosecols(split(Σ,":"""),2),left(Σ,10)="categoryID"))

enter image description here

© www.soinside.com 2019 - 2024. All rights reserved.