iam 尝试使用 php curl 开发内容抓取器,我需要从网址检索内容,例如:http://mashable.com/2011/10/31/google-reader-backlash-sharebros-petition/ 并存储它在 csv 文件中。例如:如果我输入一个 url 来提取数据,它应该将标题、内容、标签存储在 csv 中,并存储下一个 url 的后续内容。他们有这样的片段吗?
下面的代码生成了所有的内容,我需要专门调用帖子的标题、内容
<?php
$homepage = file_get_contents('http://mashable.com/2011/10/28/occupy-wall-street-donations/');
echo strip_tags($homepage);
?>
方法有很多。事实上,您想要解析 HTML 文件。 strip_tags 是一种方法,但却是一种肮脏的方法。
我建议你使用 DOMDocument 类(so.com 上应该有很多其他方法)。其余的是标准 php,从 CSV 写入和读取在 php.net 上有详细记录
在网站上获取链接的示例(不是我的): http://php.net/manual/en/class.domdocument.php#95894