通过phpcurl抓取内容

问题描述 投票:0回答:1

iam 尝试使用 php curl 开发内容抓取器,我需要从网址检索内容,例如:http://mashable.com/2011/10/31/google-reader-backlash-sharebros-petition/ 并存储它在 csv 文件中。例如:如果我输入一个 url 来提取数据,它应该将标题、内容、标签存储在 csv 中,并存储下一个 url 的后续内容。他们有这样的片段吗?

下面的代码生成了所有的内容,我需要专门调用帖子的标题、内容

<?php
$homepage = file_get_contents('http://mashable.com/2011/10/28/occupy-wall-street-donations/');
echo strip_tags($homepage);
?>
php web-scraping curl
1个回答
1
投票

方法有很多。事实上,您想要解析 HTML 文件。 strip_tags 是一种方法,但却是一种肮脏的方法。

我建议你使用 DOMDocument 类(so.com 上应该有很多其他方法)。其余的是标准 php,从 CSV 写入和读取在 php.net 上有详细记录

在网站上获取链接的示例(不是我的): http://php.net/manual/en/class.domdocument.php#95894

© www.soinside.com 2019 - 2024. All rights reserved.