web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”（例如使用Excel VBA）的问题应该*进行彻底的研究*，因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序，定制软件的开发，甚至是标准化方式的手动数据收集。

使用selenium一次性在网页上断言大量文本？

我正在使用什么： C#、Selenium（v 4.20）、NUnit、Visual Studio 场景：我试图断言给定网页上的所有文本都是可见的并且也是正确的文本。我有一把 p...

selenium-webdriver web-scraping selenium-chromedriver nunit

回答 1 投票 0

如何使用 rvest 将分层 Web 数据抓取为表格格式？

我对rvest大体上很熟悉。我知道 html_elements() 和 html_element() 之间的区别。但我无法解决这个问题：假设我们有像...

r web-scraping tidyverse rvest

回答 1 投票 0

使用 python 进行多个类的网页抓取

我正在尝试从 HTML 格式的 10K 归档文件中抓取地址：https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm 它有多个 div 类，我想抓取...

python web-scraping web beautifulsoup edgar

回答 2 投票 0

如何解决“StaleElementReferenceException：消息：过时元素引用：找不到过时元素”？

这是我的代码： elements = driver.find_elements(By.CLASS_NAME, '名称') 对于元素中的 i：我点击() driver.back() 错误： selenium.common.exceptions.StaleElementReferenceException：消息：...

python selenium-webdriver web-scraping staleelementreferenceexception

回答 1 投票 0

如何获取用户公开Facebook帖子的所有评论？

我尝试过获取graph.facebook.com/v20.0/1****************3_7****************1/comments，其中 1****************3 是有效的用户 ID，7****************1 是有效的（且公开的）帖子 ID。不幸的是，...

facebook web-scraping facebook-graph-api screen-scraping

回答 1 投票 0

通过curl请求获取Pythoninvesting.com历史股票数据

如何强制服务器通过Python中的curl直接从url_historical_data页面向我发送查询数据，如示例所示。我已经尝试过不同的事情，但我必须做点什么

python web-scraping curl

回答 1 投票 0

网页抓取没有返回预期的 html？

在购物应用程序上工作了一段时间（正在运行），现在正在寻求扩展功能，但是我对网站元素/文件层次结构等的理解乏善可陈......

c# html web web-scraping

回答 3 投票 0

使用R通过链接名称获取下载URL

我正在尝试使用 rvest 从该站点下载文件列表。文件名是规则的，但下载 URL 与模式不匹配（只有几十位数字），因此我无法构建

html css r web-scraping

回答 3 投票 0

使用 Python Scrapy 抓取 BBC 时遇到问题（2023）

我们想要抓取文章（内容+标题）来扩展我们的数据集以进行文本分类。目标：从 >> https://www.bbc.com/news/technology 的所有页面中抓取所有文章问题...

python web-scraping scrapy

回答 1 投票 0

如何修复 python 中的“TypeError: 'NoneType' object is not callable”

当我尝试运行这个简单的 python 网页抓取程序（如下所示）时，我收到错误“TypeError：‘NoneType’对象不可调用”。我该如何解决这个问题？从 bs4 导入美丽...

python web-scraping beautifulsoup python-requests typeerror

回答 1 投票 0

Scrapy + Splash：连接被拒绝

我正在学习如何使用 scrapy +splash。我已经在虚拟环境中创建了一个项目，现在正在执行本教程：https://github.com/scrapy-plugins/scrapy-splash。我已经跑了...

python web-scraping scrapy splash-screen scrapy-splash

回答 3 投票 0

抓取具有动态内容的网页 - Cheerio

我正在尝试使用node js和cheerio抓取这个html，以从span标签中获取72。但是，当我放置选择器时，它不会返回任何内容（空字符串）。在这种情况下，我想要 72 位于...

jquery node.js web-scraping cheerio htmlelements

回答 1 投票 0

Python Web 抓取 [D:websockets.client] > GET %s HTTP/1.1 [D:websockets.client] > %s: %s 未显示所有结果

我正在尝试使用Python 3.10进行网页抓取，并且库请求-HTML 0.10.0。我附上代码：从 requests_html 导入 HTMLSession url = 'https://bodysolid-europe.com/collections/all...

python web-scraping

回答 1 投票 0

Kotlin 多平台的 HTML 和 XML 解析库，支持 iOS，类似于 Java 的 Jsoup [已关闭]

我目前正在开发一个 Kotlin 多平台项目，需要一个跨多个平台（包括 Android 和 iOS）解析 HTML 和 XML 的解决方案。在 Java 中，我之前使用 Jsoup 来...

kotlin web-scraping kotlin-multiplatform

回答 1 投票 0

Puppeteer 等待键盘.type 完成长文本输入

我正在使用 puppeteer 来抓取网站。我只对以下代码有简单的问题：等待页面.键盘.类型（数据）等待页面.click(buttonSelector) 第一行类型真的很长...

javascript node.js web web-scraping puppeteer

回答 2 投票 0

Selenium ChromeDriver 要求在启动时设置默认搜索引擎

当selenium打开chromedriver时，chromedriver会要求选择默认搜索引擎，并且不会让我访问我需要的网站，即使我每次运行时都选择一个搜索引擎，它也会要求...

python selenium-webdriver web-scraping selenium-chromedriver

回答 1 投票 0

登录网络抓取

我正在尝试从 www.roblox.com 上抓取一个需要登录的页面。我已经使用 .ROBLOSECURITY cookie 完成了此操作，但是，该 cookie 每隔几天就会更改一次。我想改为...

python forms cookies authentication web-scraping

回答 2 投票 0

selenium 中的嵌套元素...我需要获取所有这些元素吗？

我正在使用硒进行一些抓取和自动化。我的问题正是我在标题上提出的。假设我有类似的东西：我正在使用硒进行一些抓取和自动化。我的问题正是我在标题上提出的。假设我有类似的东西： <div id = "dsopdoaspdk"> <div id = "owpowqkeqwop"> <div id = "wewqopewqkeop"> <div class = "kdmkdmqwopeop"> <span class = "wopqqwope"> <a id = "dlopkeop"> 我只想获得用于单击链接的类。在 XPATH 上，我必须将所有 div 嵌套起来，或者我可以得到类似只获取最外层 div(“dsopdoaspdk”) 和的内容吗？我正在尝试减少代码量，而不是放置所有这些长 div 类名。您不需要递归搜索所有 div。您可以使用 find_all 中的 BeautifulSoup 方法来查找其类中的所有链接： import requests from bs4 import BeautifulSoup response = requests.get('https://www.w3schools.com/') soup = BeautifulSoup(response.content, 'html.parser') for elem in soup.find_all('a', href=True): print("Found the URL:", elem['href']) print("The class of current url:", elem.get_attribute_list('class')[0])

python selenium-webdriver web-scraping

回答 1 投票 0

无法使用请求模块根据网页中的许可证号码生成包含电话号码的 JSON 响应

我创建了一个脚本，使用 Python 和 requests 模块根据此网页的许可证号获取电话号码。该脚本应该生成包含 ph...

python python-3.x web-scraping python-requests

回答 1 投票 0

selenium 的驱动程序在 python 中获取错误页面

我正在努力为足球锦标赛争取一定的赔率。为此，我编写了一段代码，它首先生成我想要的确切链接，然后加载相应的页面。问题是，...

python selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

web-scraping 相关问题

最新问题