web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

用汤选择美丽汤中的第二个孩子?选择?

我有: 名称 约翰 彼得 now what's the easiest way to get the Peter here if I have h2 tag already? Now I've tried: soup.select(...

回答 3 投票 12

使用R来废弃文本的html_nodes

其实我正在尝试获取此代码的sku号码(此号码 - > 111653240199):

回答 1 投票 0

使用selenium选择导航下拉菜单

#inmostialization for beautifulsoup to access site for per game stats url =“https://stats.nba.com/players/traditional/?sort=PTS&dir=-1&Season=2018-19&SeasonType=Regular%20Season”d = ...

回答 1 投票 0

如何使用Spidermon进行Scrapy历史输出比较

所以Scrapinghub正在发布Scrapy质量保险的新功能。它说它具有历史比较功能,它可以检测当前的刮擦量是否仅低于...的50%。

回答 1 投票 1

Web爬虫 - Windows应用程序

我想构建一个带有UI的Web爬虫,允许用户输入一系列部件号,然后爬虫将挖掘大约6个URL(制造商/供应商站点)并撤回数量......

回答 1 投票 2

无法从网页解析网站链接

我已经在python中使用selenium创建了一个脚本,以便在网站的联系人详细信息中搜索网站地址。但问题是没有与该链接相关的网址(我可以点击...

回答 1 投票 1

无法使用Python beautifulsoup清除不需要的字符串

当我在soup.select('。special-price')中运行以下价格= [price.text.strip()价格时] price = prices.replace(u'\ xa0',u'')打印(价格)我得到'list'对象没有属性'replace'...

回答 3 投票 0

在VBA中使用ReactJS选择HTML下拉列表

我正在尝试使用VBA从使用ReactJS的HTML网站中选择一个下拉项。对于此示例,我们可以使用以下网站:https://jedwatson.github.io/react-select/

回答 1 投票 2

根据特定标签在Web上刮取并打印所有名称和标签

我的HTML链接上的所有名称都有一个标签好吗? (我使用漂亮的汤)如果他们的标签=='特定字符串'确定,我想废弃并打印所有带有标签的名称?我的班级名称是div我的id names ='...

回答 1 投票 -2

想要废弃所有会员资料链接以获取会员详细信息

来自bs4 import BeautifulSoup导入请求r = requests.get('http://medicalassociation.in/doctor-search')soup = BeautifulSoup(r.text,'lxml')link = soup.find('table',{' class':'tab-gender'})link1 ...

回答 2 投票 1

从R中的WebPage迭代地进行Web Scraping

我有一个包含243页的表的网页。每页有34行。对于第1页,URL的结构如下所示.http://this-site.com/service/?currpage = 1。我想得到所有......

回答 1 投票 0

Scrapy无法识别xpath

我尝试从此页面https://octopart.com/electronic-parts/integrated-circuits-ics获取数据,但是从Specs按钮获取数据。我尝试使用此代码获取产品的名称,但它不起作用。 ...

回答 2 投票 0

无法使我的脚本异步工作

我在vba中编写了一个脚本,用于从torrent站点中删除不同的电影名称及其类型。虽然名称和流派出现在它的登陆页面中,但我创建了解析相同的脚本...

回答 3 投票 16

在使用来自不同单元格的超链接时获取错误

我在vba中编写了一个脚本,以利用从Range(A1“)到Range(”A2“)的超链接,以便从每个网页中删除标题。但是,我得到一个错误预期函数或变量指向。 ..

回答 1 投票 1

组织我正在拉动并保存为CSV的数据

下面的链接有很多层的商业列表。我想拉出每家公司的所有联系信息。我有过去过去用于过去表格的代码但是......

回答 1 投票 -5

Selenium:执行显式等待时的部分文本匹配

我试图抓取的页面是https://www.toyota.com/dealers/#search&zipcode=01401,我正在遍历zipcodes。对于我的其余代码,如果找到经销商,它可以提取...

回答 1 投票 0

Python Extract href问题

我正试图从网址获取所有href。问题是我无法提取写一个href:

回答 1 投票 1

如何使用python中的selenium将表格废弃成pandas数据框?

我想复制表(id = symbolMarket)并将其保存为此链接中的pandas数据帧https://www.myfxbook.com/en/forex-market/currencies/US30-historical-data我应该如何在简单/ ......

回答 1 投票 -2

BeautifulSoup在没有经过身份验证的会话的情况下解析页面

我正在尝试使用scrapy和selenium从多个页面抓取数据我使用selenium驱动程序成功登录但是当我的蜘蛛开始抓取时他没有使用登录的会话...

回答 1 投票 0

Python Beautiful Soup的div类内容的打印值

我正在试图废弃一个大学项目的网站。该网站是:https://www.influenster.com/reviews/samsung-galaxy-s9我想获得每个用户为该产品提供的评级,...

回答 3 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.