web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用节点js进行Web爬网

我在抓media.com。我试图显示网站上的所有链接。 var url =“https://medium.com/”;请求(url,函数(错误,响应,html){if(!error && ...

回答 1 投票 0

使用HtmlUnit 2.18进行抓取网页时出错

我有以下代码:WebClient webClient = new WebClient(BrowserVersion.getDefault()); HtmlPage页面;名单 anchor = new ArrayList ();试试{System.out ....

回答 2 投票 0

用rvest在r中抓取带有不同目录字符串的多个网页

我知道有很多类似的问题,但我似乎没有找到一个问这个问题(请原谅我,如果我错了)。我正试图抓住一个网站获取天气数据,我很成功......

回答 1 投票 0

使用href链接刮取网页

我正在废弃这个页面(“http://mahaprantikssksamaj.com/ssk-samaj-maharashtras.aspx”)。我正在存储有效的网址并请求重定向到下一页并为每个有效的数据抓取下一页的数据...

回答 2 投票 0

使汤不能获取所有数据

我现在要道歉,因为我确信我的问题格式和我提供的信息不会与本网站的预期相提并论。我已经编写SQL和VBA几年了......

回答 1 投票 0

使用python抓取基于javascript的“下一个”按钮的麻烦

我试图刮一个网站来学习python和web抓取。特别是,我试图在这个页面上搜索足球数据:https://www.whoscored.com/Regions/108/Tournaments/5/Seasons/7468 / ...

回答 1 投票 1

Scrapy将数据返回/传递给另一个模块

嗨,我想知道如何将pandas文件的抓取结果传递给创建创建蜘蛛的模块。将mySpider导入为mspider def main():spider1 = mspider.MySpider()process = ...

回答 1 投票 2

Selenium:获取下一个按钮点击内容

在Quora网站上,我试图通过点击“查看upvoters”获得每个答案的upvoters名称,但我没有得到正确的结果。例如,在此Quora问题链接上,您有两个...

回答 1 投票 0

IMPORTJSON自定义功能谷歌表

/ ** *将JSON数据导入电子表格Ex:IMPORTJSON(“http://myapisite.com”,“city / population”)* @param url您的JSON数据的URL为字符串* @param xpath简化xpath为字符串* @ ...

回答 1 投票 0

使用Python(Pycharm)从Coinbase进行Web抓取

我正在尝试编写一些代码,当我运行它时会给我BTC的价格。虽然我在运行代码后没有收到错误,但我没有得到价格而且我没有收到。谁能......

回答 1 投票 0

计算html文档中的单词

我想使用R计算html文章中的单词。像标题这样的刮擦数据很好,我能够下载文章(下面的代码)。现在我想计算所有这些文章中的单词,因为......

回答 1 投票 1

Python:如何使用Browser splinter选中复选框?

一旦我将以下项目添加到购物车:http://www.supremenewyork.com/shop/accessories/wau85w4km/cxv3ybp1w并转到结帐页面:https://www.supremenewyork.com/checkout,有一个条款和......

回答 1 投票 6

Python Web Scrape - 403错误

我正在尝试使用python beautifulsoup和urllib打开这个网站,但我一直收到403错误。有人可以指导我这个错误吗?我目前的代码是这样的;来自urllib.request导入...

回答 1 投票 1

如何在Python中刮取固定宽度的文件?

在Python 3中,我有一系列带有“固定宽度文件”的链接。它们是包含公司公共信息的网站。每行都有关于公司的信息示例链接:http://idg.receita ....

回答 2 投票 -1

Pandas将多个数据帧整合为单个

一直在做很多调查,仍然找到答案。我有一个通过read_html函数被拉入Pandas的已删除表的列表。这将返回数据框对象的列表。 ...

回答 1 投票 1

在R中提取位置数据

我想在R中提取酒店位置的经度和纬度。每个网页都有一个嵌入了其位置的Google地图。我尝试使用选择器小工具的各种节点,但我无法提取...

回答 1 投票 0

从html页面抓取内容

我正在使用nokogiri来抓取网页。页面的结构由包含多个列表项的无序列表组成,每个列表项都有一个包含在div中的链接,图像和文本。我......

回答 2 投票 1

使用xpath时避免类中的某些元素

我想在a标签中提取文本,但我不希望span类中的文本显示“新列表”。使用xpath,我怎样才能得到以下文字:新!责任的召唤:第二次世界大战(微软......

回答 1 投票 2

我的刮刀在点击多个第一个链接时抛出错误

我已经在python中编写了一个与selenium结合使用的脚本,点击网页中类domino-viewentry下的标签。我的脚本可以点击第一个标签。但是,而不是去......

回答 2 投票 0

通过PhantomJs下载带有Knockout绑定的页面

我想用PhantomJs在Microsoft Virtual Academy上解析一个页面。比如这一个。我能够加载它(见结果)但在下载的源代码中我没有看到课程的描述......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.