web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用cheerio刮痧数据

我正在尝试从聊天中删除数据,但我不知道如何在NodeJ中使用Cheerio我需要获取消息列表的所有昵称(msg-nickname):到目前为止我有:server.js var ...

回答 1 投票 2

Instagram刮痧:如何点击并按住某个元素,然后使用另一个给定的函数释放?

如何单击并按住元素然后运行一些代码,然后在代码运行完毕后,执行鼠标操作并取消选中?我正在为Instagram故事刮刮项目这样做我一直在努力......

回答 1 投票 0

如何在网页抓取时搜索特定的unicode字符串?

我最近对Python上的Web抓取感兴趣,并在一些简单的例子上做了,但我不知道如何处理不遵循ASCII代码的其他语言。例如,搜索...

回答 1 投票 2

从网页上的不同链接获取信息,并使用pandas将其写入.xls文件,在Python中使用bs4

我是Python编程的初学者。我在python中使用bs4模块练习网页抓取。我从网页中提取了一些字段,但它只提取了13个项目,而网页...

回答 2 投票 0

使用jq获取值,然后使用该值作为键来获取另一个值

我有几百个分类ID,我使用curl和jq从http://taxonomy.jgi-psf.org/tax/accession中提取相关值。有没有办法管jq自己,所以我可以使用值...

回答 2 投票 1

从锚点中提取href属性url

我无法从页面中提取锚点的href属性..我尝试使用re库:用于在soup.findAll中链接('a',attrs = {'href':re.compile(“^ http://”) }):links.append(link.get('href'))但是......

回答 3 投票 0

Metacritic的Web Scraper:评论[关闭]

¿我为Metacritic开发了一个网络剪贴簿,我得到了评论,但现在我必须改变我的方式,我必须在一个地方有好评(8-10),中立评论(5-8)和坏...

回答 1 投票 -1

使用PhantomJS和node.js保存并呈现网页

我正在寻找一个请求网页,等待JavaScript呈现(JavaScript修改DOM),然后抓取页面的HTML的示例。这应该是一个简单的例子...

回答 6 投票 59

网页搜集显着名称

我正试图从这里列出的每个网站获得性别竞赛或种族性倾向职业国籍:https://www.nndb.com/lists/494/000063305/这是一个单独的网站,所以......

回答 1 投票 0

不能使用bs4在div中收集href

我是一个新手试图使用bs4废弃这个网站,从指定的div收集href,然后通过hrefs导航产品页面并收集数据,但我一直在收集...

回答 3 投票 1

单击多个页面上的按钮后如何刮取数字?

以前我问过如何点击页面上的按钮。它第一次工作,但我意识到,有时它有时它不起作用。问题是我有多个页面,有时我会得到数字......

回答 4 投票 0

如何使用vba excel单击按钮

我无法点击“获取详细信息”按钮。下面提到HTML标签获取详细信息代码:Sub chromAuto()Dim obj As New ...

回答 2 投票 -3

如何通过填充一些输入文本来抓取网站并单击 .NET Core C# 中的提交按钮

我正在抓取一个在经典 asp.net 中完成的网站。它有 2 个带 ID 的字段。一个是输入文本,另一个是按钮。我需要填写输入框并单击按钮。并且还得到...

回答 4 投票 0

网络刮痧在线交互式地图的基础数据

我正在尝试从此网站上的交互式地图获取基础数据:https://www.sabrahealth.com/properties我尝试使用Google Chrome上的Inspect功能查找XHR文件...

回答 1 投票 0

如何在亚马逊上获取PageRank的Xpath?

当我在亚马逊上搜索某些内容时(在此示例中为“牛仔裤”),我会对产品进行概述。我想刮/获得产品等级的顺序。为了更清楚,我附上了一张照片。一世 ...

回答 1 投票 0

如何从一个链接生成解析的项目与来自同一项目列表中其他链接的其他解析项目

问题是我一直在从一个地方列表中进行迭代以刮取纬度经度和海拔。问题是,当我得到我所收回的东西时,我无法将其与我当前的df链接...

回答 2 投票 1

Beautifulsoup意粉代码,附加问题

我有一个代码,允许我拉一些新闻网站的链接。我只想拉出城市名称的链接 - 格但斯克。但是并不总是在URL中使用正确的拼写,所以我......

回答 1 投票 -2

试图抓到下一个网页

这是我到目前为止在范围(1,5)中的页面的代码:guitarPage = requests.get('https://www.guitarguitar.co.uk/guitars/electric/page-'.format(page) ).text soup = BeautifulSoup(...

回答 1 投票 0

如何从使用js填充的网站中抓取数据?

我试图从sharechat.com抓取发布数据(喜欢,分享,图像等),但问题是我找不到使用Selenium的帖子的图片网址,因为我怀疑它使用Javascript来填充它。一世 ...

回答 2 投票 0

在GSheets中使用ImportXML进行抓取时,“导入的内容为空。”错误

我需要将图像的源URL从目录的链接网页中删除到Google表格的列中。我认为使用IMPORTXML功能将是最简单的解决方案,但我得到了#N / A“导入...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.