Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。
我正在使用什么: C#、Selenium(v 4.20)、NUnit、Visual Studio 场景: 我试图断言给定网页上的所有文本都是可见的并且也是正确的文本。我有一把 p...
我对rvest大体上很熟悉。我知道 html_elements() 和 html_element() 之间的区别。但我无法解决这个问题: 假设我们有像...
我正在尝试从 HTML 格式的 10K 归档文件中抓取地址:https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm 它有多个 div 类,我想抓取...
如何解决“StaleElementReferenceException:消息:过时元素引用:找不到过时元素”?
这是我的代码: elements = driver.find_elements(By.CLASS_NAME, '名称') 对于元素中的 i: 我点击() driver.back() 错误: selenium.common.exceptions.StaleElementReferenceException:消息:...
我尝试过获取graph.facebook.com/v20.0/1****************3_7****************1/comments,其中 1****************3 是有效的用户 ID,7****************1 是有效的(且公开的)帖子 ID。 不幸的是,...
通过curl请求获取Pythoninvesting.com历史股票数据
如何强制服务器通过Python中的curl直接从url_historical_data页面向我发送查询数据,如示例所示。我已经尝试过不同的事情,但我必须做点什么
在购物应用程序上工作了一段时间(正在运行),现在正在寻求扩展功能,但是我对网站元素/文件层次结构等的理解乏善可陈......
我正在尝试使用 rvest 从该站点下载文件列表。文件名是规则的,但下载 URL 与模式不匹配(只有几十位数字),因此我无法构建
使用 Python Scrapy 抓取 BBC 时遇到问题(2023)
我们想要抓取文章(内容+标题)来扩展我们的数据集以进行文本分类。 目标:从 >> https://www.bbc.com/news/technology 的所有页面中抓取所有文章 问题...
如何修复 python 中的“TypeError: 'NoneType' object is not callable”
当我尝试运行这个简单的 python 网页抓取程序(如下所示)时,我收到错误“TypeError:‘NoneType’对象不可调用”。我该如何解决这个问题? 从 bs4 导入美丽...
我正在学习如何使用 scrapy +splash。我已经在虚拟环境中创建了一个项目,现在正在执行本教程:https://github.com/scrapy-plugins/scrapy-splash。 我已经跑了...
我正在尝试使用node js和cheerio抓取这个html,以从span标签中获取72。但是,当我放置选择器时,它不会返回任何内容(空字符串)。 在这种情况下,我想要 72 位于...
Python Web 抓取 [D:websockets.client] > GET %s HTTP/1.1 [D:websockets.client] > %s: %s 未显示所有结果
我正在尝试使用Python 3.10进行网页抓取,并且库请求-HTML 0.10.0。 我附上代码: 从 requests_html 导入 HTMLSession url = 'https://bodysolid-europe.com/collections/all...
Kotlin 多平台的 HTML 和 XML 解析库,支持 iOS,类似于 Java 的 Jsoup [已关闭]
我目前正在开发一个 Kotlin 多平台项目,需要一个跨多个平台(包括 Android 和 iOS)解析 HTML 和 XML 的解决方案。在 Java 中,我之前使用 Jsoup 来...
我正在使用 puppeteer 来抓取网站。 我只对以下代码有简单的问题: 等待页面.键盘.类型(数据) 等待页面.click(buttonSelector) 第一行类型真的很长...
Selenium ChromeDriver 要求在启动时设置默认搜索引擎
当selenium打开chromedriver时,chromedriver会要求选择默认搜索引擎,并且不会让我访问我需要的网站,即使我每次运行时都选择一个搜索引擎,它也会要求...
我正在尝试从 www.roblox.com 上抓取一个需要登录的页面。我已经使用 .ROBLOSECURITY cookie 完成了此操作,但是,该 cookie 每隔几天就会更改一次。我想改为...
selenium 中的嵌套元素...我需要获取所有这些元素吗?
我正在使用硒进行一些抓取和自动化。我的问题正是我在标题上提出的。假设我有类似的东西: 我正在使用硒进行一些抓取和自动化。我的问题正是我在标题上提出的。假设我有类似的东西: <div id = "dsopdoaspdk"> <div id = "owpowqkeqwop"> <div id = "wewqopewqkeop"> <div class = "kdmkdmqwopeop"> <span class = "wopqqwope"> <a id = "dlopkeop"> 我只想获得用于单击链接的类。在 XPATH 上,我必须将所有 div 嵌套起来,或者我可以得到类似只获取最外层 div(“dsopdoaspdk”) 和 的内容吗? 我正在尝试减少代码量,而不是放置所有这些长 div 类名。 您不需要递归搜索所有 div。您可以使用 find_all 中的 BeautifulSoup 方法来查找其类中的所有链接: import requests from bs4 import BeautifulSoup response = requests.get('https://www.w3schools.com/') soup = BeautifulSoup(response.content, 'html.parser') for elem in soup.find_all('a', href=True): print("Found the URL:", elem['href']) print("The class of current url:", elem.get_attribute_list('class')[0])
无法使用请求模块根据网页中的许可证号码生成包含电话号码的 JSON 响应
我创建了一个脚本,使用 Python 和 requests 模块根据此网页的许可证号获取电话号码。该脚本应该生成包含 ph...
selenium 的驱动程序在 python 中获取错误页面
我正在努力为足球锦标赛争取一定的赔率。为此,我编写了一段代码,它首先生成我想要的确切链接,然后加载相应的页面。问题是,...