web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

无法从trivago.com获取酒店价格详情

我刚开始学习bs4。我坚持下面的简单代码,我没有得到任何输出。我尝试使用类来找到元素而没有运气来自bs4 import BeautifulSoup import ...

回答 1 投票 0

BeautifulSoup用句号和空格替换换行符

我正在使用BeautifulSoup抓一些链接。以下是我正在抓取的网址源代码的相关部分: Planet Nine was initially proposed to explain the ...

回答 4 投票 0

使用selenium或请求填写表单

我正试图进入这个网站来检索我的银行帐户,首先我尝试使用selenium,但只填充用户名(可能是因为它有2种形式):来自selenium import webdriver driver = webdriver ....

回答 2 投票 5

Scrapy FormRequest无法将复杂的dicts作为formdata处理

我正在尝试将formdata提供给scrapy.FormRequest对象。 formdata是以下结构的字典:{“param1”:[{“paramA”:“valueA”,“paramB”:“valueB”}]} ...

回答 1 投票 0

如何从NY Times API访问特定日期的每篇文章?

我已经访问过NYT API。我最初使用http调用:https://api.nytimes.com/svc/search/v2/articlesearch.json?fq = source:(“The New York Times”)和pub_date :(“2019-04- 04" )API-键=

回答 1 投票 -1

如何使用带有省略号的下一个按钮使用Scrapy来抓取数据

我需要不断获取下一个按钮<1 2 3 ... 5>的数据,但是源中没有提供的href链接也有省略号。有什么想法吗?这是我的代码def start_requests(self):...

回答 2 投票 0

如何使用python使用javascript从网页中获取表格内容?

我喜欢从这个页面中获取表格内容。以下是我的代码,我得到了NaN(没有数据)。为什么这些数字没有出现?如何使用相应的数据获取表格?...

回答 1 投票 0

我正在尝试使用python的请求模块从Web下载并保存图像

我试图通过这个url的请求下载这个图像但是idk某些错误发生在第17行,没有定义什么是问题。我尝试使用url添加http://以使其成为...

回答 1 投票 0

无法使用回调获取结果

我在节点中编写了一个脚本,使用两个不同的函数getPosts()和getContent()在它们中提供回调,以便打印调用独立函数getResult()的结果。 ......

回答 1 投票 0

如何使用XML HTTP请求在Visual Basic for Applications中提取Web数据?

版本:Microsoft Visual Basic for Applications 7.1我正在进行小规模数据挖掘/ Web数据提取个人项目。我的问题是关于数据提取。提取数据......

回答 2 投票 2

使用元素循环标题数组

我正在寻找可以使用类名循环标头数组的代码,但它不能包含标签名称或标识。这只是为了确保如果任何类不存在那么......

回答 1 投票 0

使用VBA在Default-Browser中打开URL捕获现有会话

我尝试在默认浏览器(Chrome)中打开我已经登录的Web应用程序的特定URL(或者告诉我如果不登录)。当我将此URL复制/粘贴到浏览器地址栏中时,它...

回答 2 投票 0

无法在for循环中传递项目以将两个项目一起打印

我在节点中编写了一个脚本,将标题和网址从网页的目标网页中抓取到不同帖子的标题,然后从其内页中获取每个用户的个人资料名称。 ......

回答 1 投票 2

刮除多个页面时出现周期性HTTP错误413

我正在通过循环浏览我在网站上搜索我感兴趣的关键字时返回的多个页面来删除Wykop.pl('波兰的Reddit')上的帖子。我写了一个循环来迭代我的目标......

回答 2 投票 0

无法使用请求从网页中删除名称

我在python中创建了一个脚本来获取一个名称,该名称在填写网页中的输入时填充。以下是如何获得该名称 - >打开该网页后(下面给出了附加链接)...

回答 1 投票 1

Puppeteer cors犯了错误

你好我的代码使用puppeteer有问题,cors错误随机发生,但在80%的测试中。这是我的代码感谢帮助。服务器响应是访问'https:// secure -...

回答 1 投票 0

如何从span标记中提取值

我正在编写一个简单的网络刮刀来提取ncaa篮球比赛的游戏时间。代码不需要漂亮,只需要工作。我从相同的其他span标签中提取了值...

回答 3 投票 5

Python Selenium switch_to.frame()不起作用

我试图从网站上获取文字。 iframe是HTML,所以我尝试了.switch_to.frame()但失败了。在这个网站(https://finance.naver.com/sise/sise_trans_style.nhn)中,有几个iframe,但......

回答 1 投票 1

使用Python通过下拉菜单+按钮进行刮擦

我正在尝试从墨西哥中央银行的网站上搜索数据但是已经碰壁了。在操作方面,我需要首先访问初始URL中的链接。一旦访问了链接,我需要......

回答 3 投票 1

点击按钮,刮入循环

我试图获取2个单元格中的2个邮政编码之间的里程,我可以设法编写代码打开网页,输入2个邮政编码,但我不能让它点击按钮,然后采取...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.