web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用R从myneta刮痧台

我正试图从http://myneta.info/uttarpradesh2017/index.php?action=summary&subAction=candidates_analyzed&sort=candidate#summary到我的R工作室刮一张桌子。这是代码网址

回答 1 投票 0

在scrapy中逐个选择结果

我从Indeed下载了一页的源代码,我正试图从那里获得所有的职称,因为我正在使用这个xpath:response.xpath('// * [@ class =“row result”] / / * [@类= “JOBTITLE”] // ...

回答 2 投票 1

Scrapy不会刮擦页面上的所有项目

我正在抓一个电子商务网站,除了最后一页,每个网页上有48个产品。我正在使用Scrapy。问题是,它不是从页面中抓取所有产品。例如,它......

回答 1 投票 1

无法对某个链接执行单击操作

我在vba中使用IE编写了一些代码来访问某个网页。要获得该网页,必须在开始页面中点击链接并成功执行点击...

回答 1 投票 2

网络用r刮掉了多个链接

我正试图用rvest和selectorgadget从多个链接中搜索一些网球统计数据。第一页来自http://www.atpworldtour.com/en/scores/archive/stockholm/429/2017/results和...

回答 1 投票 1

为什么'错误:长度(网址)== 1不是TRUE'与rvest网页抓取

我正在尝试废弃网络数据,但第一步需要登录。我已成功登录其他网站,但我在这个网站上发生了一个奇怪的错误。图书馆(“rvest”)图书馆(“magrittr”)......

回答 1 投票 11

多处理在python web-scraping中不起作用

我已经使用beautifulsoup完成了网页抓取,并成功将解析后的数据保存到csv文件中,但我想加快这个过程,所以我使用多处理。但是我没有差别......

回答 1 投票 0

python scrapy不会在抓取列表中抓取所有网址

我试图从本页列出的页面中删除信息。 https://pardo.ch/pardo/program/archive/2017/catalog-films.html xpath选择器:film_page_urls_startpage = sel.xpath('// ...

回答 1 投票 -2

Scrapy商店返回变量中的项目以在主脚本中使用

我是Scrapy的新手,想要尝试以下方法:从网页中提取一些值,将其存储在变量中并在我的主脚本中使用它。因此我按照他们的教程改变了代码......

回答 2 投票 2

匹配R中字符串的提取国家/地区名称

我一直在搜索网站的评论数据,在这个过程中,我能够获得包含用户名,评论数量,评论日期和国家/地区信息的字符串向量。他们看 ...

回答 3 投票 1

网络抓取多处理不起作用

我正在尝试在大量网址上使用网页抓取,我应用多处理来加速,但不知道为什么它根本无法加速。以下是我的代码的一部分:def scrap(url,output_path):...

回答 1 投票 0

使用客户端或爬虫在phpunit / symfony中测试AJAX调用

我想测试一个控制器,它生成一个页面,其中的字段随ajax动态变化。这是ajax的代码:var $ group Competence = $('#...

回答 1 投票 0

Python web scraping:urllib.error.URLError:urlopen错误[Errno 11001] getaddrinfo失败

这是我第一次尝试使用Python进行Web抓取。我必须从网站上提取一些信息。我在一家机构工作,所以我使用代理进行互联网访问。我用过 ...

回答 2 投票 0

如何将for循环中的url保存到单个变量中?

我想将多个网址存储到单个变量“网址”中。这些网址由“urlp1”,“n”和“urlp2”三部分组成,您可以在下面的代码中看到这些部分。 urlp1 =“https://www.proteinatlas ....

回答 1 投票 1

如何从bs4.element.Tag列表中创建一个单独的元素 - 字典?

我已经废弃了一个网页,在那里我保存了一个名为ecg_machines ['City'] = []的默认指令 -lelements作为列表中的元素并且是类型 。比如我有......

回答 1 投票 0

Python Web Scrape Cycle选项卡

寻求帮助以遍历网站上的所有选项卡以捕获所有相关信息。在以下网站中,有一些标签为5x5,5x10,5x15,10x10等。我不知道如何...

回答 1 投票 0

VBA获取更改ID的HTML元素信息

我正在尝试创建一个excel web scraper,它可以登录我公司的票务跟踪系统,并在工作表上记录某些信息(指定了潜在客户,项目的期望日期等)。我在做 ...

回答 1 投票 2

Scrapy蜘蛛不保存数据

我正在尝试使用Scrapy将篮球队的日程安排保存到CSV文件中。我在这些文件中编写了以下代码:settings.py BOT_NAME ='test_project'SPIDER_MODULES = ['test_project ....

回答 1 投票 0

使用rvest包刮痧表

我对网络搜索非常陌生,我正在探索R中rvest库的潜力。我正试图从以下网站上搜索意大利各省的健康状况,安装....

回答 1 投票 1

使用yield语句在使用scrapy python找不到搜索查询时返回输出

我正在按照教程使用scrapy库从网站上抓取多个页面。本教程使用yield语句使用css从页面的html和css结构中获取信息...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.