我从Selenium中提取HTML,然后使用Xpaths从HTML中提取数据。
这就是Xpath。
/html/body/div[2]/div[1]/div/div/div/div/ul/li/div[1]/h3/a
这是我的代码
$data = $webdriver->getPageSource();
d($data, $urltemplate);
$doc = new DOMDocument();
$doc->loadHTML($data);
$xp = "/html/body/div[2]/div[1]/div/div/div/div/ul/li/div[1]/h3/a";
$xpatho = new DOMXpath($doc);
$elementsn = $xpatho->query($xp);
d(get_class($elementsn),$elementsn->count(),$xp,$name);
// d() is a custom function like var_dump().
我总是得到$elementsn->count() = 0.
这是$data。
我试图提取那些字符串,如 "NAD M10 BLUOS...","NAD M12 DIRECT DIGITAL... "等等。
我把HTML保存到一个文件中,然后在浏览器中打开。我附上了我想检索的数据的截图(蓝色高亮)。
基本上,HTML页面是一个产品列表,我想提取所有的产品名称。为了确认,我使用了Chrome开发者工具,并使用了复制完整的X路径功能。我有以下一些产品名称的X路径。
/html/body/div[2]/div[1]/div/div/div/div/ul/li[1]/div[1]/h3/a
/html/body/div[2]/div[1]/div/div/div/div/ul/li[3]/div[1]/h3/a
我猜想这将是一个普遍的现象。
/html/body/div[2]/div[1]/div/div/div/div/ul/li/div[1]/h3/a
然而,我一直得到一个计数=0的DOMNodeList。为什么会这样,如果有错误的话,我如何检查错误是什么?
P.S.: 这是原始网页。http:/lenbrook.com.sg3-shop-by-brand#page-4price-49-8667。
试试改变你的 $xp
$xp = '//a[@class="product_link"]/text()'