web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何废弃维基百科信息框并将其存储到csv文件中

我已经完成了对wikipedia的信息框的删除,但我不知道如何在csv文件中存储taht数据。请帮帮我。从bs4导入BeautifulSoup作为来自urllib.request的bs导入urlopen def ...

回答 2 投票 0

无法将字符串和列表从一个函数返回到另一个函数

我已经在python中创建了一个脚本,用于从其登录页面解析不同代理商的网站地址,并从其内页解析位置地址。我无法理解的是我怎样才能归还......

回答 3 投票 2

网页抓取:如何从html中提取与关键字匹配的链接,而其他关键字与网址中没有关键字?

我试图从网页中提取作业描述,如果它与某些关键字匹配,这是有效的,但我也想提取与HTML中的描述相对应的链接。 ...

回答 1 投票 0

Python Beautifulsoup4网站解析

我正在尝试使用Beautifulsoup4从一个网站上搜索一些体育数据,但是我在查找如何进行操作时遇到了一些麻烦。我用HTML不是那么好,似乎无法弄清楚最后的......

回答 3 投票 3

使用“rvest”进行多个链接网络抓取。错误参数意味着不同的行数

我正在尝试rvest网络报废,我去了以下错误代码库(xml2)库(rvest)库(purrr)ulr_base

回答 1 投票 0

雅虎财经的财务数据的VBA数据重新激活

我用google搜索数据重新搜索,在大多数情况下它似乎不适用于VBA。但我仍然认为有可能得到答案。我希望获得“运营总现金流量”中的数字...

回答 2 投票 -1

无法使用请求获取电话号码

我在python中创建了一个脚本,用于从网页上获取连接到javascript链接的电话号码,该链接在Phone Us中可见。我知道我可以使用selenium点击该链接并等到数字是...

回答 1 投票 0

如何从谷歌搜索废除“人们也问'框?

我需要废弃“People also ask box”:问题和答案。我在谷歌搜索,然后用bueatifulsoup废弃它。从bs4导入请求导入BeautifulSoup导入html2text导入...

回答 1 投票 0

如何使用selenium遍历页面并从每个页面获取数据?

我想进行谷歌搜索并收集所有点击的链接,以便我可以在收集所有链接后点击这些链接并从中提取数据。如何获得每次点击的链接?我试过了 ...

回答 1 投票 2

如何使用BeautifulSoup / MechanicalSoup生成span标记的子项 - 选择下拉字段值

我正在尝试使用MechanicalSoup在网页(http://supermag.jhuapl.edu/mag/?)上完成表单提交。在提交之前,必须使用下拉列表在同一表格中指定日期...

回答 1 投票 0

Python和Beautifulsoup 4 - findAll没有获得所有元素,只获得第一个?

我正试图从KicksUSA.com刮去鞋码,我似乎无法得到产品页面上显示的鞋码。以此页面为例 - https://www.kicksusa.com/jordan/ ...

回答 2 投票 0

如何从HTML正文中抓取文本

我从来没有刮过。仅从下面的链接中截取主灰色框中的文本是否直截了当(从标题SRUS43 KMSR 271039开始,以.END结尾)?我的最终目标是......

回答 2 投票 0

在asp.net站点中处理会话cookie或302的Scrapy

我正在尝试抓取用asp.net编写的Web应用程序。我正在尝试执行搜索并抓取搜索结果页面。可以说搜索页面是http://search.site.com/search/search ....

回答 1 投票 1

如何使用变量来表示链接?

我目前正在尝试为我的论文获取一些数据。我发现你可以使用excel进行网页编写。所以我做的是录制宏,然后尝试使用for循环调整它...

回答 2 投票 0

抓一个需要提交表单的php网页

这是链接 - http://armstrade.sipri.org/armstrade/page/values.php我正在尝试编写一个Python代码,以便在下拉菜单中为每个状态自动下载这些CSV文件。代码我......

回答 3 投票 1

由NewConnectionError引起的url超出了最大重试次数

我正在尝试抓取一个产品网站,其中包含一个类别中超过2000种产品的详细信息,例如名称等。然而,随着时间的推移,随着上述随机链接不同

回答 1 投票 2

硒 - NG-IF或下一个元素?

我正在使用Selenium开发一个用于内部Intranet的VBA Web scraper,并且我正在解压缩几块。我很幸运使用CSS访问大部分数据,但遇到了几个...

回答 3 投票 1

如何在python中将一列数据传输到一行中有多列?

我正在尝试从网站上抓取一些数据并设法收集重要信息,但当我将其打印到excel文件中时,数据只会流入一列。有没有 ...

回答 3 投票 0

使用Beautifulsoup抓取网站时编码错误

我试图从这个网站上删除文字。它返回如下文本:डा。 à¤à¥à¤·à¤¬à¹¹¤¤¾à¤|à¥à¤°à¤¥à¤¾à¤ªà¤¾à¤²à¤¾à¤à¤ªà¥à¤¤à¥à¤°à ¥à¤¤à¥à,ààà¤àà¥à¤°à¤¿à¤à¤¾à¤®à¤¾à¤¤à¥à¤à¤¶à¥à¤°ààà ¤à¥...

回答 1 投票 1

Python + BeautifulSoup:如何获得'a'元素的'href'属性?

我有以下内容:html =''' File One &...

回答 3 投票 7

© www.soinside.com 2019 - 2024. All rights reserved.