网页抓取动态内容[重复]

问题描述投票：-1回答：1

这个问题在这里已有答案：

How to extract the title and href attributes from the questions on reddit.com search page using Selenium Python 3回答

我有一个关于从动态内容中删除的一般性问题，我试图用selenium解析Reddit页面，当我向下滚动时加载新内容，是最好的方法，是在每次滚动解析后保存HTML然后向后滚动再次？

我想要做的是在某人页面上获取所有图像链接。

另外，还有一个问题，如果我一直向下滚动到底部，那时HTML（来自selenium）是否包含整个页面，即整个图像链接？

python selenium web-scraping

1个回答

0
投票

如果你想刮掉Reddit，最简单的路径可能是：

在Reddit [https://www.reddit.com/dev/api/]上创建一个API帐户
通过API搜索，而不是滚动浏览selenium。如果您愿意，可以使用像Praw [https://praw.readthedocs.io/en/latest/]这样的库，或者根据文档直接访问API。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.