动态页面抓取网站

Question

我需要抓取网站并在提交表单后从动态创建的页面中提取一些信息。

我需要爬取的信息大部分来自这些网站的数据库。

补充：

爬虫通常通过从一个超链接跳转到另一个超链接来工作。所以这些大多是静态页面。抓取不是静态存在而是动态创建的页面怎么样？

Answer 1

从爬虫的角度来看，没有太大区别。您仍然会生成 HTML。

您唯一需要注意的是指向无限数量页面的链接，例如动态生成的日历，并具有指向下一个/上个月/年份的链接。

Answer 2

您可以使用动态网络爬虫来实现此类目的，它也称为基于浏览器的爬行，其中爬虫生成网络浏览器并访问目标网站并与链接、按钮和提交表单等进行交互。

您可以尝试使用https://github.com/karthikuj/sasori，它也支持认证爬行。