web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

从亚马逊的搜索页面抓取ASIN

我试图在亚马逊上刮掉ASIN号码。请注意,这与产品详细信息无关(例如:https://www.youtube.com/watch?v = qRVRIh3GZgI),但这是在您搜索关键字时(...

回答 1 投票 5

避免关闭浏览器

我使用Selenium.ChromeDriver在VBA上编写了一个宏,它打开了网站并为其提供了各种操作。但问题是,如果宏中出现错误,我在调试模式下单击“停止”,...

回答 1 投票 0

尝试将URL Json导入Excel时出错

我正在尝试通过WinHttpRequest从以下Url导入JSON格式的信息:https://bet.hkjc.com/football/getJSON.aspx?jsontype = odds_allodds.aspx&matchid = default子测试()昏暗...

回答 1 投票 0

我想获取个人的详细信息[关闭]

我没有在这里得到地址。它给了我每个人的地址'我'。我想为每个人取地址。此代码提供除bs4导入地址以外的所有其他详细信息...

回答 2 投票 -3

如何拆分已删除的数据并将其保存在具有完整链接和描述的csv的单独列中?

我正在使用Web Scraper,如果它与关键字列表匹配,则返回作业发布的链接和描述。我遇到的问题是导出的csv只有一个...

回答 3 投票 0

在firebase云功能中运行puppeteer代码

我正在开发一个个人项目,这是一个应用程序,用户可以输入他们的地址和信用卡信息,然后单击按钮为我经常访问的大学之一购买停车许可证。 ...

回答 3 投票 1

用R抓取webx页面的aspx网页

我正试图在R中搜索“http://www.phl.org/Pages/Flight-Information.aspx#/Arrivals”网页,以获取费城航班的到达时间表(然后最终离开)。 。

回答 1 投票 1

如何使用scrapy刮擦两个不同的域?

嗨我想在我的脚本中刮掉2个不同的域我已经尝试了我的if语句,但我似乎它不起作用,请问有什么想法吗?这是我的代码类SalesitemSpiderSpider(scrapy ....

回答 1 投票 0

如何按标签,标签名称获取元素,然后单击标签位置(不工作)//镜像iMacros程序(工作)

目标:自动运行Web报表,保存到文件,上传到FTP问题:无法单击VBA中的元素,但我知道我需要采取的路由,因为宏成功地在...

回答 2 投票 1

我怎样才能获得姓名和联系电话?

我正试图从div获取姓名和联系电话。 div有时有一个跨度,有时是两个,有时是三个。我的期望是:我只需要姓名和联系电话号码。

回答 2 投票 0

从网站表中提取标签名称为“table”的数据,而不是其他内容

要导入的数据位于具有标记名称“table”的表中,而不是其他任何内容。当我在页面中分配所有表格时,我认为它不算作表格。 Sub PullData()Dim IE As New SHDocVw ....

回答 1 投票 -1

来自Kitco Inc.的Web数据提取/刮擦数据仅限文本市场页面

我希望从http://www.kitco.com/texten/texten.html获取数据: Text Only Market Page

回答 1 投票 0

刮掉AMP版本的网页是否更容易?

我正在研究一个聚合报纸文章的网络刮板。我知道AMP协议要求一个精简的Javascript版本,我也知道Javascript(部分)启用网站...

回答 1 投票 0

我怎样才能从div获得姓名和联系电话?

我试图从div获得名称和联系号码,div有三个跨度,但问题是有时div只有一个跨度,有时是两个,有时是三个跨度。第一个跨度有名字。第二......

回答 2 投票 1

无法使用BeautifulSoup Python从按钮获取文本

我有一个页面,我想从一个按钮获取文本,我认为这是由js位置控制的

回答 1 投票 0

请求网址必须是str或unicode,得到%s:'%type(url).__ name__

我编写了一个简单的蜘蛛来检索引号信息:import scrapy class GoodReadsSpider(scrapy.Spider):#identity name ='goodreads'#requests def start_requests(self):...

回答 1 投票 0

如何获得 tag using VBA的'aria-label'属性

如何使用VBA Update Hire job包含子元素时获取标签的'aria-label'属性我希望此文本“更新租用作业”并单击链接...

回答 1 投票 0

如何使用python每季度获取和特定雅虎财务数据的日期?

我可以通过以下代码从此链接下载年度数据,但它与网站上显示的内容不同,因为它是6月的数据:现在我有两个问题:我如何具体...

回答 1 投票 1

如何只使用BeautifulSoup获取维基百科页面上所有表格第一行的数据?

我正试图从这个维基百科页面抓取数据。以下是我目前使用的代码。代码:from bs4 import BeautifulSoup import urllib.request def make_soup(url):thepage = ...

回答 1 投票 0

更换 在BeautifulSoup输出中有空格

我正在使用BeautifulSoup抓一些链接,但它似乎完全忽略了 标签。以下是我正在抓取的网址源代码的相关部分:

回答 3 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.