web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何使用 Java 在 Selenium WebDriver 中查找整个网站的损坏图像?

我想找到整个网站的损坏图像。我只能对单个页面执行此操作,例如:主页。 我们如何为整个网站做到这一点?

回答 5 投票 0

无法使用snscrape

我正在尝试使用 snscrape 从 X 中提取最新的推文,但是这段代码对我不起作用。 AttributeError:“FileFinder”对象没有属性“find_module” 导入 snscrape.modules.twit...

回答 1 投票 0

获取 Instagram ID 的 JavaScript 函数

我有一个带有事件按钮的JavaScript函数来获取instagram用户的ID,但问题是它只会获取第一个用户的ID,如果我尝试转到另一个配置文件,它会给出.. .

回答 1 投票 0

Selenium 点击按钮进行网页抓取

我正在尝试使用 selenium 来抓取数据,这需要您在每一轮上推送以显示更多数据,但我对 selenium 非常缺乏经验,并且无法找到要抓取的元素

回答 1 投票 0

在python中使用selenium获取所有href链接

我正在Python中练习Selenium,我想使用Selenium获取网页上的所有链接。 例如,我想要 http:// 上所有

回答 11 投票 0

在 Node.js 上的 Puppeteer 中触发侦听器之前获取正确的重定向

目前,我正在学习 Node.js 和 Puppeteer 库以进行抓取。我有一个关于重定向的问题。我遇到了这样的场景:我想抓取 URL 'https://www.facebook...

回答 1 投票 0

如何使用 R 抓取 google 财经,其中多个页面的页面 url 不会更改?

我想用R网络抓取不同年份的股票财务表。但是,我可以获得去年的财务表,该表显示为默认值。但我也想从

回答 1 投票 0

Puppeteer 连接 chrome 浏览器远程调试链接(localhost:9222)时出现 404 错误,如何解决?

我正在使用以下代码在现有浏览器窗口上使用 puppeteer: const browser = 等待 puppeteer.connect({ browserWSEndpoint: 'ws://localhost:9222' }); 我已经开始了 chrome win...

回答 1 投票 0

同一 div 标签内所有文本的 XPath?

“不 ” “消息” “ 成立” 我想识别div中的所有文本,并且class属性值是动态的,所以c...

回答 1 投票 0

同一 div 标签内所有文本单词的 XPath?

“不 ” “消息” “ 成立” 我想识别 div 中的所有三个单词,并且 class 属性值是动态的...

回答 1 投票 0

任何人都可以帮助我如何为同一 div 标签内的所有文本单词编写 xpath

“不 ” “消息” “ 成立” 我想识别 div 中的所有三个单词,并且 class 属性值是动态的...

回答 1 投票 0

您来自的 Selenium 模拟网站

当我通过链接 https://kinoxor.pro/650-mir-druzhba-zhvachka-2024-05-06-19-54.html 打开网址时 - 我遇到错误 - 内部服务器错误 但是当我将链接粘贴到搜索引擎http时...

回答 0 投票 0

通过 Node 的 fetch() 请求和通过浏览器请求有什么区别? [已关闭]

我正在尝试抓取一些 API 来获取公共数据。使用 Node 的 fetch 时有时会被阻止,但使用浏览器请求相同的 API 时不会被阻止。通常,如果我被阻止,我会

回答 1 投票 0

Python 中的 Scrapy 安装问题

来自 scrapy 导入选择器 # 导入请求 导入请求 url = 'https://en.wikipedia.org/wiki/巴基斯坦' # 获取网页的HTML内容 响应 = requests.get(url) # 创建 Se...

回答 1 投票 0

我如何从 geeksforgeeks 上抓取我所在大学的排行榜?

我一直在尝试通过网络抓取一个名为 GeeksForGeeks 的编码平台的排行榜。 给定的代码应该工作得很好。但这根本不起作用。 导入请求 从 BS4 导入

回答 1 投票 0

抓取谷歌地图时始终“无”

我抓取了谷歌地图,得到了几个网址,我想提取一些数据,但我不能 def get_data(path_txt): 以 open(path_txt) 作为文件: url_to_sc = [url.strip() for url in ...

回答 1 投票 0

如何查找动态网站的元素

当我尝试在 TradingView 上查找收益数据的元素时,代码不断移动,我似乎无法找到使用 Selenium 进行交互的元素。 能够与...互动

回答 1 投票 0

Scrapy 函数未调用

每当我使用 parse_quote 函数时,什么也没有发生,我只是得到一个空白的 CSV 文件,但如果我将所有报价项放入解析函数中,它就能够抓取报价。我究竟做错了什么? 定义...

回答 1 投票 0

属性错误:“DataFrame”对象在变量 netflix_data 中没有属性“append”

当我尝试使用 BeautifulSoup 学习网页抓取时,在使用 .append() 函数将数据插入字典(netflix_data)时遇到一些问题 这是我的整个源代码 进口潘...

回答 1 投票 0

如何使用 Python 将页面下载为一个文件 (MHTML)?

我想将页面下载为 .mhtml 中的单个文件,就像使用 Chrome 完成的那样:另存为 -> 另存为单个文件 我尝试过“pywebcopy”库,但它不起作用。它...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.