web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Web Scraping Python:没有从网页的下拉菜单中获取所需数据

我试图从网页获取数据。这是一个链接https://www.cardekho.com/compare-cars。从这个页面,我们需要一次刮取汽车数据表及其规格的比较......

回答 1 投票 0

网络报废Rvest - 如何从缩短的网址中捕获完整的`href`网址

我正在尝试从包含表和链接的网络数据。我可以使用链接文本“score”成功下载表格。但是,我想取代缩短的网址,而不是缩短网址。

回答 1 投票 0

webscrap并将检索到的数据拆分为不同的行

我正在尝试收集活动日期,时间和地点。他们成功地出来了但是它不是读者友好的。如何让日期,时间和地点分开显示如下: - 活动日期:......

回答 2 投票 0

使用urllib进行Web刮擦

我希望从CME网站上获取一些信息。我想获得10年期国债券期货的期货收益率和期货DV01。在旧线程上找到这个小片段:...

回答 1 投票 0

使用Beautiful Soup或Selenium(Py)下载ASPX PDF链接

我试图抓取的网站是:http://www.imperial.courts.ca.gov/CourtCalendars/Public/MCalendars.aspx它使用ASPX生成我想要的PDF链接。我以前的旧代码......

回答 2 投票 0

关键字/属性的美丽汤过滤(python)

我想使用Beautiful Soup和请求来搜索网站的数据,我几乎得到了我想要的东西,但我找不到过滤最后步骤的方法:这是我的代码:variants = soup.find( ” ...

回答 3 投票 0

尝试在HTML文档上使用getElementsByClassName设置变量时出现问题

我正在尝试抓取一个网页以获取项目列表。当我在设置响应文本后msgbox oHtml.body.innerHTML时,我看到了所有HTML,因此该部分正在运行。但是,实际上......

回答 1 投票 0

Scrapy在关注链接时添加了不需要的前缀链接

2019-03-17 17:21:06 [scrapy.core.engine] DEBUG:Crawled(404) (...

回答 1 投票 0

Web Scraping脚本无法正常工作

我一直在尝试构建一个Web Scraping脚本来监视网站html中的任何更改,在看到更改后,它比电子邮件和文本更改我。我有一个脚本没有看到的问题......

回答 1 投票 0

RSelenium刮削返回奇数结果

我正在尝试使用RSelenium搜索一些新闻来源搜索页面。这是我的代码:library(rvest)库(RSelenium)#open浏览器rD

回答 1 投票 0

刮痧请求

在我的代码中有什么问题,我尝试获取相同的内容,如https://koleo.pl/rozklad-pkp/krakow-glowny/radom/19-03-2019_10:00/all/EIP-IC--EIC- EIP-IC-KM-REG,但结果与我想要的不同。 ...

回答 2 投票 -3

使用PHP Web爬虫查找某些没有特定元素的单词

我正在关注http://simplehtmldom.sourceforge.net/使用php制作网络抓取工具,但我很混淆如何在不指定元素的情况下搜索单词。所以单词搜索是基于所有...

回答 3 投票 2

当我浏览循环时,这个网页是如何阻止我的,而不是直接访问它时?

我试图刮一组网页。当我直接从一个网页上抓取时,我可以访问html。但是,当我遍历pd数据帧来刮取一组网页时,甚至是......

回答 1 投票 0

在Web中输入用户和密码会生成错误462找不到远程服务器计算机

我想连接到要求输入用户名和密码的网页。我需要一个放置用户和密码的宏,然后按一下进入第一个网页。登录网络后,导航至...

回答 3 投票 1

如何使用VBA从后续页面抓取mailto

我试图从html文件中抓取mailto(href),但我无法“击中”它。欢迎任何建议。 ...

回答 1 投票 0

Firefox更新后,Selenium(Python3)不会转到目标URL

下面是我的Python刮刀代码的开始,它在过去一年中成功地提取了数据。我的FireFox浏览器(版本65.0.2 64位)最近更新,现在代码不会直接...

回答 1 投票 0

使用vba将Excel中当前帐户的余额复制到Excel

在论坛的帮助下,我创建了一个宏vba来连接到我的银行网站,输入用户名和密码并正确登录。一旦我用vba的宏登录,我就去...

回答 1 投票 0

美丽的汤,如何刮取多个网址并将其保存在csv文件中

所以我想知道如何抓取多个网站/网址并将它们(数据)保存到csv文件中。我现在只能保存第一页。我尝试了很多不同的方法,但似乎没有用。 ...

回答 2 投票 0

美丽的汤和熊猫的UTF-8错误

下面是一个Python美丽的汤刮刀,曾经成功地从MLB.com上刮下团队名单。现在,当我尝试运行代码时,出现以下错误。 UnicodeDecodeError:'utf-8'编解码器......

回答 1 投票 1

multipart-form-data,POST方法,页面中有多个表单

问题我正在尝试使用request的python lib在页面中进行抓取,但是我遇到了错误(例如Bad request或Method不允许)。该页面有两种形式:一种是get,另一种是......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.