抓取赔率体育信息

问题描述 投票:0回答:2

我正在使用 Python 3.5,实际上我专注于使用 BeautifulSoup/lxml/Selenium/PhantomJS 进行网页抓取

我只是想抓取我需要的所有数据,以便用 Python 代码进行破解。

我可以使用 BeautifulSoup 轻松地从静态 HTML url 中抓取信息。 我最近发现了如何从动态 url 获取信息,使用 Chrome 上的网络选项卡,并在 XHR 选项下查看出现的 HTTP 请求。 它通常会给我从 JS 生成的 html 代码,在这种情况下,我可以继续使用 BS4 的正则表达式抓取它。 但实际上我正在从事一个关于从 www.oddsportal.com 获取赔率的新项目 在这种情况下,我真的很困惑如何继续,因为在 XHR 下我找不到有效的东西来继续抓取。 经过反复尝试,我发现我可以从这样的网址中抓取信息:

例如我的链接是: http://www.oddsportal.com/soccer/england/premier-league/tottenham-sunderland-UBtChnLa/

我发现真正有趣的链接是:

http://fb.oddsportal.com/feed/match/1-1-UBtChnLa-1-2-yjc11.dat?_=1452760985069

在这里你可以找到我需要的所有赔率,但是当我尝试抓取它时,它会给我这样的错误:

globals.jsonpCallback

我知道我必须学习 python 中的 json 库,但我真的很困惑如何继续。 你能帮我解释一下吗?我真的很想专注于这类项目,所以我想了解更多,但我知道我对此的了解实际上很低。 感谢您提供任何信息!

javascript python-3.x parsing web-scraping beautifulsoup
2个回答
0
投票

您是否尝试过使用 xpath 抓取 html?您可能会发现它比使用正则表达式更容易。另外,您可能还想看看 HtmlAgilityPack for C#,它非常适合网页抓取。


0
投票

(R 而不是 python)
我一直在努力解决类似的问题,并在很长一段时间后将解决方案包装为 R 包并将其解决。我想知道这是否足够相似以移植到 python。
https://github.com/ikashnitsky/oddor

© www.soinside.com 2019 - 2024. All rights reserved.