我正在开发一个简单的项目(更多的是Web开发中的练习而不是任何东西),我很早就遇到了一个问题。对于上下文,我试图从亚马逊的几个不同类别中提取前三十个畅销产品的名称。而不是传统的网络刮板,我使用谷歌表的公式=importXML()
。此公式接受网站和XPath位置。
这是一个示例网页:https://www.amazon.com/Best-Sellers-Beauty/zgbs/beauty/ref=zg_bs_nav_0
我跑过检查员,发现它是一个大型有序的项目清单,经过多次挖掘我以为我找到了产品的标题并右键单击>复制>复制XPath。
这是复制的XPath://*[@id="zg-ordered-list"]/li[1]/span/div/span/a/div
我把它输入谷歌表并返回#N / A,这也就不足为奇了,因为当我进入Chome控制台并输入:$x('//*[@id="zg-ordered-list"]/li[1]/span/div/span/a/div')
时,我得到了一个非常大的物体。
如果有人能帮助我并指出我正确的XPath位置,我会非常感激。
你必须使用string
来获取文本。
'string(xpath)'
镀铬控制台:
$x('string(//*[@id="zg-ordered-list"]/li[1]/span/div/span/a/div)')
输出:
Philips Sonicare Diamond Clean Classic Rechargeable 5 brushing modes, Electric…