web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

加载Selenium,但不打印所有HTML

我试图使用Python和Selenium来从网站上抓取动态加载的数据。问题是,只有大约一半的数据报告存在,而实际上它应该......

回答 2 投票 1

美丽的汤(代码工作)现在只返回某些标签

几个星期前我正在抓取这个网站,但有些代码不再适用。此代码按预期返回所有内容:来自bs4 import BeautifulSoup导入请求url ='https:// www ....

回答 1 投票 0

具有相同类的div的Beautifulsoup打印属性值

我有以下代码工作,将在value = soup = BeautifulSoup(html,'lxml')之后打印文本name = soup.find('input')['value'] print(name)但页面有多个div ...与......

回答 1 投票 -1

仅针对过去一年的网页抓取评论

我正在尝试从tripadvisor为特定航空公司Spicejet提取年仅一年的评论。链接:https://www.tripadvisor.com/Airline_Review-d8728949-Reviews-or60-SpiceJet#REVIEWS但是......

回答 3 投票 0

截图谷歌地图和粘贴到Excel文档VBA [重复]

我有一个代码,已经搜索纬度和经度并粘贴到我的工作表,这是完美的。我正在寻找一种方法来获取经度和纬度,加载谷歌地图,以及......

回答 1 投票 -2

美丽的汤Youtube订阅者

我正在使用Python with Requests和Beautiful Soup尝试使用以下代码返回某些Youtube频道的订阅者数量:从bs4 import BeautifulSoup请求导入请求...

回答 2 投票 1

创建单个驱动程序以使用代理遍历多个站点

我在python中编写了一个脚本与selenium一起使用代理来解析不同站点的标题。如果我坚持为每个人创建单独的驱动程序实例,我的脚本可以做到这一点

回答 1 投票 -1

如何从Google Cloud Function(Cheerio,Node.js)发出多个http请求

我的问题:我正在使用Cheerio,Node.js和Google Cloud Functions构建一个Web抓取器。问题是我需要发出多个请求,然后将每个请求的数据写入Firestore数据库......

回答 1 投票 0

如何使用BeautifulSoup中的Python将单行中多列分隔的数据导出为.csv或.xls?

我目前将此数据存储为结果变量。 ['抽奖日期:'] ['抽奖日期:'] [''] [''] [''] ['抽奖日期:2019-01-15'] [''] ['Perdana彩票'] [] ['F','2771','M','0133','A','6215'] [] ......

回答 1 投票 -4

爬行:“查询字符串参数”和“请求有效负载”之间的差异

我正在尝试使用Scrapy抓取ajax网站,网址是http://www.target.com/p/bounty-select-a-size-white-paper-towels-12-mega-rolls/-/A- 14920157#prodSlot = medium_1_2&term = bounty我的目标是......

回答 1 投票 3

如何使用requests.post获取网页?

我想得到网页http://www3.hkexnews.hk/listedco/listconews/advancedsearch/search_active_main.aspx的结果,股票代码的输入为5.问题是我不知道.. 。

回答 1 投票 1

滑块按钮单击selenium python

我的问题如下:我正在接受培训,以检索本网站上的信息https://www.cetelem.es/。我想做几件事:点击两个幻灯片按钮来更改信息。 ...

回答 1 投票 6

如果beautifulsoup中没有数据,如何让f.write()放入NA?

我的目标是在汗学院的多个个人资料页面上搜集一些特定数据。并将数据放在csv文件中。以下是抓取一个特定配置文件页面并将其放在csv上的代码:来自bs4 ...

回答 1 投票 0

相对XPath错误地选择循环中的相同元素

我在抓一些数据。我需要的一个数据点是日期,但包含此数据的表格单元格仅包括月份和日期。幸运的是,这一年被用作分类的标题元素......

回答 1 投票 3

VBA代码:从HTTP响应接收的表中获取元素值

我需要你的帮助来从HTTP响应中收到的表单中获取元素值。场景:例如,在购买股票时,您点击特定股票的“买入”按钮。同一时间......

回答 1 投票 0

Mechanize Rails - Web Scraping - 服务器使用JSON进行响应 - 如何将URL解析为下载CSV

我是Mechanize的新手并试图克服这个非常明显的答案。我将一个简短的脚本放在外部站点上进行身份验证,然后单击一个动态生成CSV文件的链接。一世 ...

回答 1 投票 2

简单的HTML DOM - 跳过某些元素

我想忽略 which is inside element and only get the text of the . 144.000 TL 的内容

回答 3 投票 2

在Google登录页面输入密码时出现问题

我是node / puppeteer的新手我遇到问题点击下一个按钮将密码添加到Google登录表单中。我可以添加电子邮件,然后单击电子邮件的下一个按钮。我还可以加入......

回答 1 投票 0

如何在通用函数中的html_nodes中包装css和xpath参数

我想创建一个能够读取CSS和XPATH参数的html_node包装器。我想创建一个可以提供给html_node的引用表达式,并在现场进行评估。一世 ...

回答 1 投票 0

Puppeteer无法抓取动态生成的内容

我有以下要素,我想提取经度和纬度值:

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.