PHP 抓取嵌套页面

问题描述 投票:0回答:1

我对网络抓取不熟悉,需要快速学习以适应工作。 我在抓取客户端网页时遇到问题,因为我需要获取的内容唯一地嵌套到主页上的每个记录(300 多次),子页面上的某些字段不在标签中,而且有点混乱。 获取以下信息的最佳逻辑是什么? (另外,如果有人知道任何免费且值得研究的新抓取工具,那就太棒了。 我能够获取父页面上的所有记录。我只是不知道如何跳过每条记录来访问其子页面信息,并在移动到父页面上的下一行之前获取它。

php web-scraping domdocument
1个回答
1
投票
foreach top level pages {
    html = fetch page
    data = process html
    while (there are more descendant pages) {
        html = fetch next page using data
        data = process html
    }
    save this data chain
}

但是,如果您对上述逻辑感到困惑,我想我不得不建议您跳过代码并集中时间学习现有工具之一。您几乎肯定会节省时间。特别是如果您经常刮擦的话。

© www.soinside.com 2019 - 2024. All rights reserved.