我无法使用Google表格IMPORTXML来抓取这个网站 - 是否被封锁？

Question

我试图使用Google表格上的ImportXML函数来刮取this website，虽然我可以从“head”标签获取信息，但我无法从“body”标签中获取任何信息。

例如，获取标题的功能应该是

=importxml("link","//html/body/div[3]/div/div[1]/div/h3/a")

但我得到了一个#N/A "Imported content is empty"。我试过在“body”标签下抓取所有内容但没有成功。只是“/ body”不会返回错误，但它确实给了我一个空单元格。我想知道是否只是在这里阻止刮到Google表格上。先感谢您。

Answer 1

你只能刮掉你在这张图片上看到的东西：

如果是这样，那么你需要使用这个公式：

=ARRAY_CONSTRAIN(IMPORTDATA("http://poe.trade/search/roumedomigoniu"), 3000, 10)

并与QUERY和REXEXREPLACE / REGEXEXTRACT的组合过滤掉您需要的源代码。