使用BeautifulSoup的多页网页刮痧表

Question

我正在尝试使用BeautifulSoup刮掉这个网页https://www.whoscored.com/Statistics，以获取播放器统计表的所有信息。我遇到了很多困难，并且想知道是否有人能够帮助我。

url = 'https://www.whoscored.com/Statistics'
html = requests.get(url).content
soup = BeautifulSoup(html, "lxml")
text = [element.text for element in soup.find_all('div' {'id':"statistics-table-summary"})]

我的问题在于我不知道获取该表的正确标签是什么。该表有几页，我想刮掉每一页。我在表中看到的页面更改的唯一指示是下面代码中的数字：

<div id="statistics-table-summary" class="" data-fwsc="11">

Answer 1

在我看来，该网站使用Javascript加载他们的数据。为了获取数据，您必须模仿浏览器加载页面的方式;请求库是不够的。我建议你看看像Selenium这样的工具，它使用“机器人浏览器”加载页面。加载页面后，您可以使用BeautifulSoup检索所需的数据。

这是来自RealPython的有用教程的link。

祝好运！

使用BeautifulSoup的多页网页刮痧表

问题描述投票：1回答：1

1个回答

最新问题

使用BeautifulSoup的多页网页刮痧表

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1