Google Sheet 导入 XML 公式、网页抓取类别 ID

Question

我需要创建导入 XML 公式方面的帮助。我有一个部分更改的 URL，它包含一个隐藏的类别 ID，该 ID 根据文章的不同而变化。 URL 并不简单，而是一个又长又复杂的字符串。具有唯一的标识符

“categoryId”：“xxxxxx”（见截图）

我似乎不知道如何只提取猫。 ID 号，因为它不是 URL 的直接部分，而是嵌入在较长的结构中。

我尝试简单地复制 XML 路径

=IFNA(regexextract(IMPORTXML(B3,"/html/body/script[1]/text())))","[0-9]+")))

并分配清晰的标识符。

=IFNA(regexextract(IMPORTXML(B2,"//script[contains(., 'categoryId')]/text()")))

Tab Try 2 中的解决方法，即我首先提取脚本内容，然后在脚本内容中查找categoryId，也没有给我所需的结果。

=IMPORTXML(B2, "/html/body/script[1]/text()")
=REGEXEXTRACT(C2, """categoryId"":""(\d+)""")

有人有其他解决方案可以看到我做错了什么吗？谢谢你

Answer 1

这是您可以测试的一种方法：

=let(Σ,tocol(array_constrain(importdata(B2),20,200),1),
 filter(choosecols(split(Σ,":"""),2),left(Σ,10)="categoryID"))