web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

试图从网站上删除数据但不断出错

好吧,基本上我要做的就是遍历在过去6年里参加过NCAA男子篮球锦标赛的每支球队,并将他们的名单从这个网站上删除。这是我的代码:...

回答 1 投票 0

在python中打印时,附加到列表不起作用

我正在尝试从特定场所的DBLP API中提取作者和论文题目。这是我的方法:导入json导入pandas为pd url =“http://dblp.uni-trier.de/search/publ/api?q = ...

回答 2 投票 0

网络抓取 - 从地图图标中提取信息

我是网络抓取新手。我想刮掉以下网站。 http://maps.3dhubs.com/这是一张全球地图,其中包含> 7000家供应商的列表。我想得到所有供应商的名字。什么时候 ...

回答 1 投票 -3

使用rvest包来刮取航空安全数据

我是R的新手,在网络编程方面有0经验。现在我被分配了一个项目来争论和可视化航空安全数据。我在网上搜索了数据,并在这里获得了网站http:// aviation -...

回答 1 投票 0

美丽的汤网页刮板

我正在尝试使用以下网址抓取网页https://www.bseindia.com/corporates/shpSecurities.aspx?scripcd=500209&qtrid=96.00并且我想用以下html代码抓取一个表格。我有 ...

回答 1 投票 -2

在类库中使用WebBrowser进行Web抓取

我需要在类库中创建一个方法来获取URL的内容(可以通过JavaScript动态填充)。我一无所知,但一整天都在谷歌搜索这就是我来的......

回答 1 投票 3

如何浏览使用Python对其内容进行分页的HTMl页面? [关闭]

我想从以下网站抓取所有表条目(描述S / No.,文档编号等的表)并将其写入excel。到目前为止,我能够从第一页抓取数据(10 ...

回答 1 投票 -2

更新网络刮刀

嗨我终于能够设置我的webscraper并将数据导入我的网页:)但是我的网页在端口3001上运行,网页刮板在端口8080上,我有点困惑,因为我可以设置一个计时器...

回答 1 投票 0

如何在Python中抓取时同时打印段落和标题?

我是python的初学者。我目前正在使用Beautifulsoup来抓一个网站。 str =''#my_url source = urllib.request.urlopen(str);汤= bs.BeautifulSoup(来源,'lxml');比赛= soup.find(” ...

回答 1 投票 0

刮板给空白输出

我在我的python脚本中使用了一个选择器来从下面给出的一些html元素中获取文本。我尝试使用.text来获取这些来自元素的廉价字符串,但它根本不起作用。 ...

回答 2 投票 1

渲染使用框架集的页面

我正在使用scrapy + splash来为我的大学抓取网站。有些页面很古老,并且使用了我不熟悉的技术。我注意到有些网站没有完全渲染。所有不完整......

回答 1 投票 0

R:Web Scraping Wikipedia的JavaScript表

我试图刮掉表格中的所有数据:https://en.wikipedia.org/wiki/List_of_countries_by_firearm-related_death_rate我尝试过使用选择器小工具。我实际上找到了正确的......

回答 1 投票 0

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

我正试图从PGA.com网站上获取数据,以获得美国所有高尔夫球场的表格。在我的CSV表中,我想要包括高尔夫球场的名称,地址,所有权,......

回答 3 投票 4

引用来自google.com/finance和python的报道

我试图从谷歌财务的新网站上删除报价,因为旧网站即将被弃用。我已经写了一些代码来提取股票报价,但它很慢,需要大约2 ...

回答 1 投票 0

Python刮取谷歌财务

我试图从谷歌财经的新界面刮取股票价格。我使用xpath导航到价格的位置,但在打印它时,它总是返回一对方括号[]。 ...

回答 2 投票 1

填写搜索框时,搜索按钮不起作用

我在python中用selenium写了一个刮刀,在搜索框中输入一个地址,然后按下搜索按钮。当我运行刮刀时,看起来它填满了地址但是当它按下...

回答 1 投票 1

从表中抓取数据时,'int'对象没有属性'find_all'

我得到一个AttributeError:'int'对象没有属性'find_all'异常,即使table的值不为空:来自bs4 import BeautifulSoup as ur from urllib.request import urlopen ...

回答 1 投票 -1

从BeautifulSoup对象中删除非BMP字符

我是python的初学者。我正在使用BeautifulSoup从网站中提取数据。但只要页面的源代码包含表情符号,我的程序就会停止。 /我应该做什么/ ...

回答 2 投票 0

如何避免程序终止urllib2.httperror 404错误并显示相应的消息

我正在从100k系统URL中抓取内容(example.com/entry/1> example.com/entry/100000)。但是,大约10%的URL已被删除,这意味着当脚本到达它们时它会给出...

回答 1 投票 0

用BeautifulSoup刮Instagram

我正试图从Instagram中的“按标签搜索”中获取特定字符串。我想从这里获取url img:

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.