web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何抓取足球周结果

我想获得虚拟足球联赛的结果,并根据此 Excel 文件中所示的周进行排列,我正在尝试从该网站 https://odibets.com/league...

回答 2 投票 0

没有名为 Selenium 的模块;已经满足要求了

终端错误 安装错误 我正在尝试运行一个简单的测试程序来使用 Selenium 打开一个窗口。不幸的是,我不断收到一条错误消息,说没有名为 selenium 的模块。什...

回答 2 投票 0

如何使用selenium访问svg对象内的元素

我正在尝试使用 Selenium 从 OpenStreetBrowser 访问速度数据,但无法访问网站的 SVG 元素。 这是我到目前为止所尝试过的 从硒导入网络驱动程序 来自瑟伦...

回答 1 投票 0

限制Python并发http请求的最佳方法(无线程)?

我有兴趣为异步函数调用创建一个池(它们将是 HTTP 请求),但是我想在单个线程中完成所有操作。这样做的原因是产生多个

回答 3 投票 0

如何使用 selenium / requests / beautifulsoup 将表抓取到数据框中?

我的目标是对于网站https://data.eastmoney.com/executive/000001.html,当你向下滚动时,你会发现一个大桌子 我想把它变成Python中的DataFrame。汤很美

回答 2 投票 0

PowerShell,如何按下网络表单上的按钮

页面 https://schneegans.de/windows/unattend-generator 是一种表单,可让您定义 autounatted.xml 中的内容以用于 Windows 的自动安装,并生成如下 URL:

回答 1 投票 0

如何在Selenium中刮掉被另一个元素覆盖的元素?

我正在尝试抓取一些数据,但我需要的 div 元素被带有链接的元素覆盖。当尝试使用此代码时: 点1 = [] 点2 = [] table = driver.find_elements(By.XPATH, '//文章[con...

回答 1 投票 0

当map_dfr因找不到特定页面的元素而中断时,如何使用map_dfr进行抓取而不跳过

我正在一组网页上运行map_dfr,以提取将捆绑到数据框中的各种元素。我做了一个简单的例子来展示这个问题,只需循环浏览两页。在...

回答 1 投票 0

如何关闭脚本期间打开的弹出窗口?

我有一个在页面上执行任务的脚本。一项任务会打开一个弹出窗口,但我无法将其关闭。 color="accent" class="mat-focus-indicator mat-button mat-button-base mat-accent&quo...

回答 1 投票 0

unDetected_chromedriver 耗时太长

我正在使用 selenium 和 unDetected_chromedriver 从 9gag 中抓取模因。我通过打印标题来测试代码,大约需要 7 到 10 秒。我不确定这是否正常。我想要

回答 2 投票 0

使用 R 抓取带有动态表的页面

我正在尝试使用 R (rvest) 从下一页抓取表格 https://www.nba.com/stats/players/passing?DateFrom=02/07/2024&DateTo=02/07/2024&dir=1 然而我注意到...

回答 1 投票 0

如何从网站(HTML)获取特定数据?

我正在尝试从网站提取特定数据并将其加载到我的 Excel 工作表中。 例如,我想从 https://www.metacritic.com/game/sid-meiers-civilization-vi/ 中提取 Metascore。

回答 2 投票 0

如果请求相同,如何抓取无限滚动网站?

我正在尝试使用 API(一个无限滚动网站)从 Behance 提取数据。当您滚动时,新产品和请求将开始出现。现在我知道哪些请求包含该项目的数据...

回答 1 投票 0

如果请求相同,如何抓取无限滚动网站?

我正在尝试使用 API(一个无限滚动网站)从 Behance 提取数据。当您滚动时,新产品和请求将开始出现。现在我知道哪些请求包含 pro 的数据...

回答 1 投票 0

无法在page.evaluate()中使用外部函数

我正在用 puppeteer 抓取动态网站。我的目标是能够创建尽可能多的通用抓取逻辑,这也将删除大量样板代码。因此,出于这个原因,我...

回答 1 投票 0

如何从不响应GET的网页获取数据

我是编码新手,正在学习抓取网页。我当前的项目是从超市收集燃油价格。数据可在此处获取。由于尝试检索时 python 报废失败...

回答 1 投票 0

如何在不使用 Selenium 的情况下使用 Python 处理百思买登陆页面上的国家/地区选择?

我正在尝试使用 Python 从百思买网站获取内容,但我在国家/地区选择页面上遇到了初始障碍。首次访问百思买时,该网站要求用户...

回答 1 投票 0

如何有条件地抓取元素并分离其内容?

我正在尝试从 IMBD 网站上抓取集数、季数、执行时间、原籍国和语言。 这是我使用的代码: 导入请求,

回答 2 投票 0

没有 <a> 节点/href 属性的 Scrapy web

相信你做得很好! 我需要您的支持,我正在尝试抓取此网页:https://servicio.mapa.gob.es/regfiweb# 进入后,您必须前往: 布斯卡多雷斯。 产品。 我愿意

回答 1 投票 0

如何在Excel中使用Selenium应用SendKeys Keys.Enter(或Keys.Return)?

我正在整理一个词汇列表并整理一个宏以从vocabulary.com 中提取信息。搜索没有按钮,所以我必须使用回车键,但 Keys.Enter 不起作用。 该...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.