web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用VBA刮取源代码中没有的数据

我试图从一个网站上刮掉整个div。数据在源代码中不可见,它根据URL(链接)中的变量而变化。我一直在寻找任何复制到excel的解决方案......

回答 1 投票 0

python XPath for peoplefinders.com缺少文本项

我正在尝试从peoplefinders.com抓取数据。但我要检索的部分是空的。 page = requests.get(“http://www.peoplefinders.com/peoplesearch/searchresults?search = People&...

回答 2 投票 1

使用beautifulsoup进行Python网络抓取 - 无法从Clinicaltrials.gov中提取首席调查员

(免责声明:我是一个Python和网络抓取菜鸟,但我正在尽力学习)。我正在尝试从clinicaltrials.gov的研究中提取3个关键数据点。他们有一个API,但API ......

回答 3 投票 1

为什么我提交表单网页抓取代码不起作用?

我试着访问这个网站的表:https://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php所以你需要选择一个状态“Selecione um ...

回答 1 投票 -1

使用Python对Web内容进行Web抓取

我正试图从这里获取'SALES HISTORY'的数据。由于数据来自JavaScript,我参考了这个链接,试图抓取数据。但是,当我运行以下代码时,新...

回答 1 投票 0

使用带有列表的R表单在POST中刮取数据

我试图通过查看Safari网络选项卡使用我可以看到的API来搜索一些Web数据。如果传递给API,则API似乎无法正确获取表单参数...

回答 1 投票 0

如何刮取存储在列表中的多个链接

我试图通过将每个pagenumber应用到url然后将url存储在列表中来刮取多个url页面。执行迭代时,只刮取第一页的内容......

回答 1 投票 0

使用Python中的Pandas模块将网站中提取的项目写入包含不同长度列表的.xls表格

我是Python编程的初学者,我正在练习从网站上抓取不同的价值观。我从特定网站中提取了项目,现在想将它们写入.xls文件。 ...

回答 1 投票 1

在多个结果的页面上刮取一个结果的信息

我想从多个结果的页面中搜索/解析特定结果的数据。例如,下面是一个页面的源html的剪辑,其中包含两个用于商业搜索的结果...

回答 1 投票 1

将主ID添加到孩子

我需要一些帮助。我是网络抓取的初学者。我正在一个有两个以上级别的网站上工作。我可以通过python获取所有表,但我无法关联master和child对象。我有......

回答 1 投票 -2

BeautifulSoup在html页面中不显示某些标签

如果我在这里访问此页面,我可以在检查时看到带有img标签的页面上的图像。但是当我尝试使用请求获取页面并使用BeautifulSoup解析时,我无法访问相同的图像。 ...

回答 2 投票 3

如何仅在python中使用请求模块来刮取数据

我实际上是尝试使用请求模块解析网站,并从中提取一些文本。在点击Cp中的网址后,网址:https://www.icsi.in/student/Members/MemberSearch.aspx

回答 1 投票 1

Scrapy 1.0+在CsvItemExporter子类中正确设置访问权限?

以前,访问CsvItemExporter的子类中的设置,我需要修改设置中指定的分隔符,可以使用:from scrapy.conf import settings但是...

回答 3 投票 6

无法修改selenium python绑定中的语言选项

我已经在python中创建了一个与selenium结合使用的脚本来从google play store中抓取不同的应用程序名称,当我执行我的脚本时它们都会通过。但是,结果是......

回答 4 投票 8

需要单击搜索按钮但没有按钮ID,类名

我是这个论坛的新手...请解决我的下面的问题:我想点击搜索按钮打开我可以搜索的新页面,但我无法点击搜索按钮,因为只有按钮名称在...

回答 1 投票 1

用于将数字提取到多个单元格的VBA代码

嗨,我很难将数字放到多个单元格中。我只是想将财务数据按顺序放入单元格中,但我不知道为什么它不起作用。 (该代码由另一个问题帖子给出......

回答 1 投票 0

Scrapy splash - 循环将所有值保存为仅一个项目

我正在使用Scrapy with splash来刮取基于Javascript的网站的价值。代码工作正常,蜘蛛刮擦所有有趣的值。问题是它将所有这些值保存到一个项目。 ...

回答 1 投票 0

如何通过无头chrome管理登录会话?

我需要制作刮刀:打开无头浏览器,转到网址,登录(有蒸汽oauth),填写一些输入,点击2按钮问题是无头浏览器的每个新实例清除我的登录...

回答 3 投票 13

BeautifulSoup在instagram html页面中查找

我有一个问题,找到与bs4的东西。我试图在html instagram页面中自动找到一些网址(并且知道我是一个python noob)我找不到自动搜索的方法...

回答 3 投票 1

有没有办法让硒以异步方式工作?

我的目标是在可汗学院尽可能多地删除个人资料链接。然后在每个配置文件中抓取一些特定数据,将它们写入CSV文件。我的问题很简单:......

回答 1 投票 4

© www.soinside.com 2019 - 2024. All rights reserved.