如何抓取像Beauhurst和Pitchbook这样的数据库平台?

问题描述 投票:0回答:1

使用Python 3.12; pycharm。 一些背景信息:我的 Excel 表格上有不到 800 家所谓的英国私募股权公司,其中很多都处于不活跃/解散等状态。我必须捕获每个公司的一些关键数据(基金规模/投资规模等的一些指标,以确定市场定位,以及它们是否在营业)。

如果我自己做的话,这将需要几天的时间来解析。我希望自动抓取 Beauhurst(我有一个帐户)和/或 Pitchbook(使用免费的个人资料预览)来找出不活跃/活跃以及是否在英国。

一旦列表缩短,我将抓取不同的所需数据,或者然后手动进行其他排名。

关于问题,我是一个初级到中级的Python编码员,我从来没有做过网络抓取。我有请求(我知道我可以用它来登录我的 Beauhurst 帐户),还有美丽的汤要刮。我真的可以做我想做的事吗?我要查找的信息不是在一个很长的网页上,而是在 700 多个网页上,尽管是在单个网站上。

我已经开始在 pycharm 上进行练习,到目前为止,我在设置代码来抓取单个页面时遇到了很多问题,因为我还必须了解 html。我预计它会起作用,但我的整体结构很糟糕。在我投入大量时间之前,我想知道我所拥有的是否值得/可能。

python web-scraping beautifulsoup python-requests
1个回答
0
投票

我在博赫斯特工作。

您是否考虑过将您拥有的列表上传到 Beauhurst,然后在“集合”中搜索活跃的企业?然后您可以导出所需的信息。

我建议与您的客户经理联系,他可以提供帮助!

© www.soinside.com 2019 - 2024. All rights reserved.