网页抓取动态内容[重复]

问题描述 投票:-1回答:1

我有一个关于从动态内容中删除的一般性问题,我试图用selenium解析Reddit页面,当我向下滚动时加载新内容,是最好的方法,是在每次滚动解析后保存HTML然后向后滚动再次?

我想要做的是在某人页面上获取所有图像链接。

另外,还有一个问题,如果我一直向下滚动到底部,那时HTML(来自selenium)是否包含整个页面,即整个图像链接?

python selenium web-scraping
1个回答
0
投票

如果你想刮掉Reddit,最简单的路径可能是:

  1. 在Reddit [https://www.reddit.com/dev/api/]上创建一个API帐户
  2. 通过API搜索,而不是滚动浏览selenium。如果您愿意,可以使用像Praw [https://praw.readthedocs.io/en/latest/]这样的库,或者根据文档直接访问API。
© www.soinside.com 2019 - 2024. All rights reserved.