我对网络抓取不熟悉,需要快速学习以适应工作。 我在抓取客户端网页时遇到问题,因为我需要获取的内容唯一地嵌套到主页上的每个记录(300 多次),子页面上的某些字段不在标签中,而且有点混乱。 获取以下信息的最佳逻辑是什么? (另外,如果有人知道任何免费且值得研究的新抓取工具,那就太棒了。 我能够获取父页面上的所有记录。我只是不知道如何跳过每条记录来访问其子页面信息,并在移动到父页面上的下一行之前获取它。
foreach top level pages {
html = fetch page
data = process html
while (there are more descendant pages) {
html = fetch next page using data
data = process html
}
save this data chain
}
但是,如果您对上述逻辑感到困惑,我想我不得不建议您跳过代码并集中时间学习现有工具之一。您几乎肯定会节省时间。特别是如果您经常刮擦的话。