动态页面抓取网站

问题描述 投票:0回答:2

我需要抓取网站并在提交表单后从动态创建的页面中提取一些信息。

我需要爬取的信息大部分来自这些网站的数据库。

补充:

爬虫通常通过从一个超链接跳转到另一个超链接来工作。所以这些大多是静态页面。抓取不是静态存在而是动态创建的页面怎么样?

dom web-crawler aggregation
2个回答
1
投票

从爬虫的角度来看,没有太大区别。您仍然会生成 HTML。

您唯一需要注意的是指向无限数量页面的链接,例如动态生成的日历,并具有指向下一个/上个月/年份的链接。


0
投票

您可以使用动态网络爬虫来实现此类目的,它也称为基于浏览器的爬行,其中爬虫生成网络浏览器并访问目标网站并与链接、按钮和提交表单等进行交互。

您可以尝试使用https://github.com/karthikuj/sasori,它也支持认证爬行。

© www.soinside.com 2019 - 2024. All rights reserved.