web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用Python通过下拉菜单+按钮进行刮擦

我正在尝试从墨西哥中央银行的网站上搜索数据但是已经碰壁了。在操作方面,我需要首先访问初始URL中的链接。一旦访问了链接,我需要......

回答 3 投票 1

点击按钮,刮入循环

我试图获取2个单元格中的2个邮政编码之间的里程,我可以设法编写代码打开网页,输入2个邮政编码,但我不能让它点击按钮,然后采取...

回答 1 投票 1

vba:如何点击iframe中的元素

我的目标是单击一个html iframe中的元素,但到目前为止我没有任何作用。希望有人可以建议如何正确地处理这项任务,因为我现在在圈子里跑了几个星期。我有 ...

回答 1 投票 1

Python BeautifulSoup在特定标记之后提取文本

我正在尝试使用beautifulsoup和python从网页中提取信息。我想在特定标签下面提取信息。要知道它是否是正确的标签我想做...

回答 3 投票 0

BeautifulSoup:'Response'类型的对象没有len()

问题:当我尝试执行脚本时,BeautifulSoup(html,...)给出错误消息“TypeError:类型'对象的对象'没有len()。我尝试将实际的html作为参数传递,但它。 ..

回答 5 投票 18

如何在Linux服务器上进行Web抓取

我想在linux服务器上进行网络报废。但是Linux服务器没有GUI和浏览器。他们只有黑屏,即终端。最近我使用python在windows上准备了一个selenium脚本...

回答 1 投票 -2

尝试使用python和bs4从特定的'td'中删除所有'a'文本

我试图刮取https://www.betexplorer.com/soccer/england/premier-league/fixtures/来提取'a'标签中包含的文本,特别是在带有类“table-main”的表格中,那么......

回答 4 投票 1

无法在csv文件中写入数据

我在节点中编写了一个脚本,使用puppeteer从网页中获取不同的名称和指向其配置文件的链接。脚本以正确的方式获取它们。我现在想做的是写...

回答 2 投票 0

如果使用python和beautifulsoup只知道域链接,如何获取网站的多个页面来抓取特定数据

我是python报废的新手,想要编写一个网站的代码报废数据,当没有分页可用且页面链接是动态的时,它都是内页,你可以看到我发布的链接...

回答 1 投票 0

Python BeautifulSoup硒刮刀

我正在使用以下python脚本从亚马逊页面抓取信息。在某些时候,它停止返回页面结果。脚本正在启动,浏览关键字/页面,但我只得到......

回答 1 投票 2

如何使用BeautifulSoup在Python中仅使用一到两个数字来隔离解析结果

在继续我的FreshDirect计划时,我希望得到我在常规订单中的数量值。我需要获取这些值,以便最终自动化订购流程,但是......

回答 1 投票 2

使用VBA如何从HTTP GET函数将API DataSet加载到Excel中?

我正在尝试将API调用的DataSet输出直接加载到我的工作表上的单元格区域中。具体来说,我只需要TASK_ID,TASK_NUMBER,TASK_RESUME和TASK_GROUP_NAME。他们提供了......

回答 1 投票 1

如何从网站的搜索栏中删除所有可能的结果

这是我的第一个网络抓取任务。我的任务是抓取这个网站这是一个包含丹麦律师姓名的网站。我的困难在于我只能检索名字......

回答 1 投票 0

使用python和BeautifulSoup从网页检索链接

如何检索网页的链接并使用Python复制链接的URL地址?

回答 15 投票 121

提取span标签内的信息

我试图在“span”标签之间提取PMC ID。为此,我使用了find by xpath,但是我遇到了以下错误:selenium.common.exceptions.NoSuchElementException:消息:无法...

回答 1 投票 1

如何使用Python仅刮掉新链接(之前的刮除之后)

我正在抓取并从网站下载链接,并且每天都会使用新链接更新网站。我想这样,每次我的代码运行时,它只会刮擦/下载更新的链接...

回答 1 投票 1

尝试使用“xml_find_all”抓取网站后出错“xpath_search”

我是R.的新人。我正在努力搜集一个公共网站,其中包含巴西圣保罗州监狱中的囚犯和空缺数量。我是一名记者,我问州政府......

回答 1 投票 1

使用beatifulsoup4来抓取HTML代码的特定部分

我想在html代码的末尾使变量等于1.65。目前,如果我要运行我的代码,它将打印“价格文本”。任何能够交换它打印“1.65”的帮助将是......

回答 1 投票 0

循环和网络抓取。如何刮掉多个元素

我试图从网站上刮掉赔率。目前我的代码可以打印游戏的最后一个奇怪但不是全部。我做错了什么想法?从bs4导入来自urllib的BeautifulSoup ....

回答 1 投票 0

在python请求中发布数据时出错

在尝试使用python请求发布数据时,错误会从浏览器检查控制台引发实际表单数据:{“params”:“query =&hitsPerPage = 1000&facetFilters =%5B%5B%22catalogs%...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.