使用BeautifulSoup的多页网页刮痧表

问题描述 投票:1回答:1

我正在尝试使用BeautifulSoup刮掉这个网页https://www.whoscored.com/Statistics,以获取播放器统计表的所有信息。我遇到了很多困难,并且想知道是否有人能够帮助我。

url = 'https://www.whoscored.com/Statistics'
html = requests.get(url).content
soup = BeautifulSoup(html, "lxml")
text = [element.text for element in soup.find_all('div' {'id':"statistics-table-summary"})]

我的问题在于我不知道获取该表的正确标签是什么。该表有几页,我想刮掉每一页。我在表中看到的页面更改的唯一指示是下面代码中的数字:

<div id="statistics-table-summary" class="" data-fwsc="11">
python web-scraping beautifulsoup
1个回答
3
投票

在我看来,该网站使用Javascript加载他们的数据。为了获取数据,您必须模仿浏览器加载页面的方式;请求库是不够的。我建议你看看像Selenium这样的工具,它使用“机器人浏览器”加载页面。加载页面后,您可以使用BeautifulSoup检索所需的数据。

这是来自RealPython的有用教程的link

祝好运!

© www.soinside.com 2019 - 2024. All rights reserved.