web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

R在超链接中添加变量

我正在尝试创建一个代码,允许我根据变量更新超链接,或者最终通过循环遍历字符向量。我想做的是能够设置超链接...

回答 1 投票 0

脚本在解析链接时给出重复的结果

我正在尝试使用以下脚本从网页抓取图像链接,但是当我运行它时,脚本从那里获取两个链接(相同的链接两次)。为什么我会得到如此奇怪的结果?我需要 ...

回答 2 投票 1

BeautifulSoup:获取文字,创建字典

我正在搜集中央银行研究出版物的信息,到目前为止,对于美联储,我有以下Python代码:START_URL ='https://ideas.repec.org/s/fip/fedgfe.html'page = ...

回答 2 投票 2

如何从维基百科页面中提取数据

使用JavaScript从这个维基百科页面的表中提取数据的最佳方法是什么? https://en.wikipedia.org/wiki/Most_common_words_in_Spanish我尝试使用以下代码来...

回答 1 投票 -1

使用保存的html页面使用scrapy进行报废

我正在寻找一种方法来使用我在计算机上保存的html页面使用scrapy。就我而言,我收到一个错误:requests.exceptions.InvalidSchema:找不到'file:///的连接适配器...

回答 1 投票 2

Python - 使用Python 3 urllib发出POST请求

我正在尝试向以下页面发出POST请求:http://search.cpsa.ca/PhysicianSearch为了模拟单击“搜索”按钮而不填写任何表单,这会添加数据...

回答 3 投票 8

加载Selenium,但不打印所有HTML

我试图使用Python和Selenium来从网站上抓取动态加载的数据。问题是,只有大约一半的数据报告存在,而实际上它应该......

回答 2 投票 1

美丽的汤(代码工作)现在只返回某些标签

几个星期前我正在抓取这个网站,但有些代码不再适用。此代码按预期返回所有内容:来自bs4 import BeautifulSoup导入请求url ='https:// www ....

回答 1 投票 0

具有相同类的div的Beautifulsoup打印属性值

我有以下代码工作,将在value = soup = BeautifulSoup(html,'lxml')之后打印文本name = soup.find('input')['value'] print(name)但页面有多个div ...与......

回答 1 投票 -1

仅针对过去一年的网页抓取评论

我正在尝试从tripadvisor为特定航空公司Spicejet提取年仅一年的评论。链接:https://www.tripadvisor.com/Airline_Review-d8728949-Reviews-or60-SpiceJet#REVIEWS但是......

回答 3 投票 0

截图谷歌地图和粘贴到Excel文档VBA [重复]

我有一个代码,已经搜索纬度和经度并粘贴到我的工作表,这是完美的。我正在寻找一种方法来获取经度和纬度,加载谷歌地图,以及......

回答 1 投票 -2

美丽的汤Youtube订阅者

我正在使用Python with Requests和Beautiful Soup尝试使用以下代码返回某些Youtube频道的订阅者数量:从bs4 import BeautifulSoup请求导入请求...

回答 2 投票 1

创建单个驱动程序以使用代理遍历多个站点

我在python中编写了一个脚本与selenium一起使用代理来解析不同站点的标题。如果我坚持为每个人创建单独的驱动程序实例,我的脚本可以做到这一点

回答 1 投票 -1

如何从Google Cloud Function(Cheerio,Node.js)发出多个http请求

我的问题:我正在使用Cheerio,Node.js和Google Cloud Functions构建一个Web抓取器。问题是我需要发出多个请求,然后将每个请求的数据写入Firestore数据库......

回答 1 投票 0

如何使用BeautifulSoup中的Python将单行中多列分隔的数据导出为.csv或.xls?

我目前将此数据存储为结果变量。 ['抽奖日期:'] ['抽奖日期:'] [''] [''] [''] ['抽奖日期:2019-01-15'] [''] ['Perdana彩票'] [] ['F','2771','M','0133','A','6215'] [] ......

回答 1 投票 -4

爬行:“查询字符串参数”和“请求有效负载”之间的差异

我正在尝试使用Scrapy抓取ajax网站,网址是http://www.target.com/p/bounty-select-a-size-white-paper-towels-12-mega-rolls/-/A- 14920157#prodSlot = medium_1_2&term = bounty我的目标是......

回答 1 投票 3

如何使用requests.post获取网页?

我想得到网页http://www3.hkexnews.hk/listedco/listconews/advancedsearch/search_active_main.aspx的结果,股票代码的输入为5.问题是我不知道.. 。

回答 1 投票 1

滑块按钮单击selenium python

我的问题如下:我正在接受培训,以检索本网站上的信息https://www.cetelem.es/。我想做几件事:点击两个幻灯片按钮来更改信息。 ...

回答 1 投票 6

如果beautifulsoup中没有数据,如何让f.write()放入NA?

我的目标是在汗学院的多个个人资料页面上搜集一些特定数据。并将数据放在csv文件中。以下是抓取一个特定配置文件页面并将其放在csv上的代码:来自bs4 ...

回答 1 投票 0

相对XPath错误地选择循环中的相同元素

我在抓一些数据。我需要的一个数据点是日期,但包含此数据的表格单元格仅包括月份和日期。幸运的是,这一年被用作分类的标题元素......

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.