web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用selenium一次性在网页上断言大量文本?

我正在使用什么: C#、Selenium(v 4.20)、NUnit、Visual Studio 场景: 我试图断言给定网页上的所有文本都是可见的并且也是正确的文本。我有一把 p...

回答 1 投票 0

如何使用 rvest 将分层 Web 数据抓取为表格格式?

我对rvest大体上很熟悉。我知道 html_elements() 和 html_element() 之间的区别。但我无法解决这个问题: 假设我们有像...

回答 1 投票 0

使用 python 进行多个类的网页抓取

我正在尝试从 HTML 格式的 10K 归档文件中抓取地址:https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm 它有多个 div 类,我想抓取...

回答 2 投票 0

如何解决“StaleElementReferenceException:消息:过时元素引用:找不到过时元素”?

这是我的代码: elements = driver.find_elements(By.CLASS_NAME, '名称') 对于元素中的 i: 我点击() driver.back() 错误: selenium.common.exceptions.StaleElementReferenceException:消息:...

回答 1 投票 0

如何获取用户公开Facebook帖子的所有评论?

我尝试过获取graph.facebook.com/v20.0/1****************3_7****************1/comments,其中 1****************3 是有效的用户 ID,7****************1 是有效的(且公开的)帖子 ID。 不幸的是,...

回答 1 投票 0

通过curl请求获取Pythoninvesting.com历史股票数据

如何强制服务器通过Python中的curl直接从url_historical_data页面向我发送查询数据,如示例所示。我已经尝试过不同的事情,但我必须做点什么

回答 1 投票 0

网页抓取没有返回预期的 html?

在购物应用程序上工作了一段时间(正在运行),现在正在寻求扩展功能,但是我对网站元素/文件层次结构等的理解乏善可陈......

回答 3 投票 0

使用R通过链接名称获取下载URL

我正在尝试使用 rvest 从该站点下载文件列表。文件名是规则的,但下载 URL 与模式不匹配(只有几十位数字),因此我无法构建

回答 3 投票 0

使用 Python Scrapy 抓取 BBC 时遇到问题(2023)

我们想要抓取文章(内容+标题)来扩展我们的数据集以进行文本分类。 目标:从 >> https://www.bbc.com/news/technology 的所有页面中抓取所有文章 问题...

回答 1 投票 0

如何修复 python 中的“TypeError: 'NoneType' object is not callable”

当我尝试运行这个简单的 python 网页抓取程序(如下所示)时,我收到错误“TypeError:‘NoneType’对象不可调用”。我该如何解决这个问题? 从 bs4 导入美丽...

回答 1 投票 0

Scrapy + Splash:连接被拒绝

我正在学习如何使用 scrapy +splash。我已经在虚拟环境中创建了一个项目,现在正在执行本教程:https://github.com/scrapy-plugins/scrapy-splash。 我已经跑了...

回答 3 投票 0

抓取具有动态内容的网页 - Cheerio

我正在尝试使用node js和cheerio抓取这个html,以从span标签中获取72。但是,当我放置选择器时,它不会返回任何内容(空字符串)。 在这种情况下,我想要 72 位于...

回答 1 投票 0

Python Web 抓取 [D:websockets.client] > GET %s HTTP/1.1 [D:websockets.client] > %s: %s 未显示所有结果

我正在尝试使用Python 3.10进行网页抓取,并且库请求-HTML 0.10.0。 我附上代码: 从 requests_html 导入 HTMLSession url = 'https://bodysolid-europe.com/collections/all...

回答 1 投票 0

Kotlin 多平台的 HTML 和 XML 解析库,支持 iOS,类似于 Java 的 Jsoup [已关闭]

我目前正在开发一个 Kotlin 多平台项目,需要一个跨多个平台(包括 Android 和 iOS)解析 HTML 和 XML 的解决方案。在 Java 中,我之前使用 Jsoup 来...

回答 1 投票 0

Puppeteer 等待键盘.type 完成长文本输入

我正在使用 puppeteer 来抓取网站。 我只对以下代码有简单的问题: 等待页面.键盘.类型(数据) 等待页面.click(buttonSelector) 第一行类型真的很长...

回答 2 投票 0

Selenium ChromeDriver 要求在启动时设置默认搜索引擎

当selenium打开chromedriver时,chromedriver会要求选择默认搜索引擎,并且不会让我访问我需要的网站,即使我每次运行时都选择一个搜索引擎,它也会要求...

回答 1 投票 0

登录网络抓取

我正在尝试从 www.roblox.com 上抓取一个需要登录的页面。我已经使用 .ROBLOSECURITY cookie 完成了此操作,但是,该 cookie 每隔几天就会更改一次。我想改为...

回答 2 投票 0

selenium 中的嵌套元素...我需要获取所有这些元素吗?

我正在使用硒进行一些抓取和自动化。我的问题正是我在标题上提出的。假设我有类似的东西: 我正在使用硒进行一些抓取和自动化。我的问题正是我在标题上提出的。假设我有类似的东西: <div id = "dsopdoaspdk"> <div id = "owpowqkeqwop"> <div id = "wewqopewqkeop"> <div class = "kdmkdmqwopeop"> <span class = "wopqqwope"> <a id = "dlopkeop"> 我只想获得用于单击链接的类。在 XPATH 上,我必须将所有 div 嵌套起来,或者我可以得到类似只获取最外层 div(“dsopdoaspdk”) 和 的内容吗? 我正在尝试减少代码量,而不是放置所有这些长 div 类名。 您不需要递归搜索所有 div。您可以使用 find_all 中的 BeautifulSoup 方法来查找其类中的所有链接: import requests from bs4 import BeautifulSoup response = requests.get('https://www.w3schools.com/') soup = BeautifulSoup(response.content, 'html.parser') for elem in soup.find_all('a', href=True): print("Found the URL:", elem['href']) print("The class of current url:", elem.get_attribute_list('class')[0])

回答 1 投票 0

无法使用请求模块根据网页中的许可证号码生成包含电话号码的 JSON 响应

我创建了一个脚本,使用 Python 和 requests 模块根据此网页的许可证号获取电话号码。该脚本应该生成包含 ph...

回答 1 投票 0

selenium 的驱动程序在 python 中获取错误页面

我正在努力为足球锦标赛争取一定的赔率。为此,我编写了一段代码,它首先生成我想要的确切链接,然后加载相应的页面。问题是,...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.