PHP 抓取嵌套页面

Question

我对网络抓取不熟悉，需要快速学习以适应工作。我在抓取客户端网页时遇到问题，因为我需要获取的内容唯一地嵌套到主页上的每个记录（300 多次），子页面上的某些字段不在标签中，而且有点混乱。获取以下信息的最佳逻辑是什么？（另外，如果有人知道任何免费且值得研究的新抓取工具，那就太棒了。我能够获取父页面上的所有记录。我只是不知道如何跳过每条记录来访问其子页面信息，并在移动到父页面上的下一行之前获取它。

Answer 1

foreach top level pages {
    html = fetch page
    data = process html
    while (there are more descendant pages) {
        html = fetch next page using data
        data = process html
    }
    save this data chain
}

但是，如果您对上述逻辑感到困惑，我想我不得不建议您跳过代码并集中时间学习现有工具之一。您几乎肯定会节省时间。特别是如果您经常刮擦的话。

PHP 抓取嵌套页面

问题描述投票：0回答：1

1个回答

最新问题

PHP 抓取嵌套页面

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1