PHP 抓取带有标签的 html 页面内容[关闭]

问题描述 投票:0回答:2

原网页代码

<html>
<div class="clear"></div>
<div class="slider">
<ul>  
<li>
<a title="title1" href="http://www.link.com" >
<img  title="title1"  alt=""  src="http://www.link.com/1.jpg"  /></a>
</li>
<li>
<a title="title2" href="http://www.link.com" >
<img  title="title2"  alt=""  src="http://www.link.com/2.jpg"  /></a>
</li>
</ul>
</div>
<div class="clear"></div>
</html>

我想提取以下详细信息(带标签),如下所示

<div class="slider">
<ul>  
<li>
<a title="title1" href="http://www.link.com" >
<img  title="title1"  alt=""  src="http://www.link.com/1.jpg"  /></a>
</li>
<li>
<a title="title2" href="http://www.link.com" >
<img  title="title2"  alt=""  src="http://www.link.com/2.jpg"  /></a>
</li>
</ul>
</div>

检查了之前发布的许多问题,但我找不到与此类似的内容,所以请有人帮助我解决这个问题。

谢谢

php html web-scraping
2个回答
3
投票

要正确废弃它们,您需要 PHP DOMDOcument 扩展的

DOMDocument::loadHTML()
DOMDocument::getElementsByTagName()
DomNode::attributes()
DOMNode::getNamedItem()
函数。


2
投票

要操作 HTML,最好不要使用像

preg_replace
这样的正则表达式。为什么?请参阅
© www.soinside.com 2019 - 2024. All rights reserved.