web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何在网表中打开多个href来刮擦硒

我正在尝试使用python和selenium来抓取这个网站。但是我需要的所有信息都不在主页面上,那么如何逐一点击“应用程序编号”列中的链接...

回答 3 投票 0

Python数据刮痧:用一系列href和美化来刮擦标题不起作用

我是Python的新手,我的第一个尝试是从随机网站做一些网页抓取。这是我的代码,我很困惑这是什么转。我正在争夺冠军和......

回答 1 投票 1

如何在python selenium中基于列表索引超出范围摆脱此错误

我正在从亚马逊网站上抓取数据。目的是获得产品名称和相应的ASIN(亚马逊标准识别号码)。有人可以建议我如何解决这个错误。 ...

回答 1 投票 0

添加分页,KeyError:'url

我正在做我的第一个蜘蛛,我需要输入一个特定的类别,输入出版物并获得所需的数据,然后浏览该类别的各个页面,但我发现以下错误...

回答 1 投票 0

Python web抓取特定类中的find_all(“a”)

我是网络抓取的新手,我正在处理我的小项目。任务是获取“相机”,“价格”和“快速规格”的名称(来自:https://www.dpreview.com/products/cameras/all?page = ...

回答 1 投票 0

动态表上带有/ VBA的Excel-IE Automation

早安,我希望那里有一些善良的灵魂可以帮助我解决我在使用VBA操纵网站时遇到的障碍。我正在使用MS Excel 2010和Internet Explorer 11.0 ....

回答 1 投票 0

python scrape /获取数据aspx查询

我正在尝试使用python https://safer.fmcsa.dot.gov/CompanySnapshot.aspx从此站点获取数据我读了一些解释,但我仍然对请求标头感到困惑。会是什么......

回答 2 投票 0

BeautifulSoup:无法获取所有图像src

我试图从网站获取每个图像,有时BeautifulSoup没有从HTML获得每个src属性。示例:data = requests.get('https://www.qmedichealth.com/')soup = ...

回答 1 投票 1

使用python脚本在网页上执行“ctrl + F”...

是否可以制作一个计算“ctrl F”的脚本?我有一份社团名单。我想得到(例如)这些社会的价值观。对于我列表中的每个社会我的剧本: - 继续......

回答 1 投票 0

从python脚本运行scrapy

香港专业教育学院一直试图从python脚本文件运行scrapy因为我需要获取数据并将其保存到我的数据库中。但当我用scrapy命令scrapy crawl argos运行它时,脚本运行正常但是...

回答 2 投票 1

当“按钮”输入字段没有名称时,如何使用Python请求登录

我正在尝试使用请求登录网站。在我的帖子请求中,我必须发送表单的所有输入字段。似乎按钮输入的名称字段不存在,所以我不知道......

回答 1 投票 0

TypeError:'list_iterator'对象不是异步迭代

我有一个简单的python3 webscraper同步工作。我想把它变成异步,所以我修改了一下。但程序不会遍历解压缩列表[(,),(,),(,),......

回答 2 投票 0

如何使用python导出csv文件时将cp1252转换为UTF-8

我尝试导出CSV文件时出现Unicode错误(网页抓取,我正在使用Beautifulsoup并导入了CSV和Beautifulsoup)。该代码由Mac Linux使用,它非常支持UTF-8 ...

回答 1 投票 0

如何使用php curl和简单的html dom解析器获取span标记值?确切的值不显示

代码:304,575 $ videos = $ html-> find('span [class = file-count-label]')...

回答 2 投票 3

与桌子断裂的美丽的汤刮表

我正试图将表格刮成数据帧。我的尝试只返回表名,而不是每个区域的行内数据。这就是我到目前为止:从bs4导入BeautifulSoup作为bs4 ......

回答 1 投票 1

点击按钮RSelenium Amazon Page Turn

我无法让Rselenium在我试图抓取的亚马逊评论部分翻页。以下是我的代码。我已经尝试过几乎所有CSS和xpath的组合。有什么想法吗? ...

回答 1 投票 0

使用BeautifulSoup进行基本的Python Web抓取

我对编码很新,最近我开始研究网络抓取。我一直在关注本教程并阅读BS4文档,但我无法理解为什么我的代码无效。 ...

回答 1 投票 0

使用Python BeautifulSoup进行Web Scraping时出错:从github配置文件中提取内容

这是使用BeautifulSoup库从github存储库中抓取内容的python代码。我面临错误:“NoneType”对象在这个简单的代码中没有属性'text'“。我正面临......

回答 2 投票 0

如何下载网站中提供的所有数据文件夹?

通常,如果网站显示一系列包含文件夹的数据的链接(即带有经济数据的电子表格),我该如何编写识别所有链接并下载数据的程序? ...

回答 1 投票 0


© www.soinside.com 2019 - 2024. All rights reserved.