web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

云环境抓取中无法绕过Cloudflare

总结 我正在尝试在 OCI 环境中实施绕过 Cloudflare 的抓取过程,但没有成功。它使用多种方法在我的本地环境中工作,但在...

回答 1 投票 0

如何使用LeetCode GraphQL查询提取数据

我只是想知道如何使用 GraphQL API 打印所有 JSON? 就像我想为我的项目提取 LeetCode 用户个人资料的所有数据,但我不知道如何将查询写入 ex...

回答 1 投票 0

网络抓取数据不起作用 - selenium 和 python

我尝试使用 selenium 和 python 从这个 url Merkurbets 中抓取游戏和赔率。 “团队名称”的元素看起来像。 div 标签中的 _ngcontent-ng-c1043474636 是硒的问题吗...

回答 1 投票 0

为什么对 CSS 选择器使用第一个/最后一个顺序会在 rvest 中返回错误?

我正在尝试抓取一个有几个按钮的页面。 我想选择/单击最后一个按钮。使用 Chrome 的选择器小工具扩展,我可以通过添加 :last at ...

回答 1 投票 0

Nodriver:如何在Nodriver中设置浏览器下载目录?

我想在我的脚本中设置一次下载位置,然后任何文件下载都应该下载到那里。请提供脚本,因为我是新手。谢谢你。

回答 1 投票 0

如何修复 ValueError:无法设置列不匹配的行 |美丽的汤

我收到错误: ValueError:无法设置列不匹配的行 从维基百科上抓取时。见下文。我该如何解决这个问题? 从 bs4 导入 BeautifulSoup 将 pandas 导入为 pd 导入

回答 2 投票 0

使用VBA从网站提取电子邮件地址

给定一个链接列表,其中每个链接都指向一个列出电子邮件地址的主页,我们如何利用 VBA 将这些电子邮件地址提取到 Excel 中?

回答 1 投票 0

Nodriver - 在浏览器级别检测下载事件,而不是使用 cdp 事件在选项卡中检测下载事件

导入异步 将 nodriver 导入为 uc 从 nodriver 导入 cdp 绑定选项卡 = [] 异步定义bind_handlers(浏览器): 全局绑定选项卡 而真实: 等待 asyncio.sleep(0.01) 为...

回答 1 投票 0

为什么 BeautifulSoup find_all() 方法在 HTML 注释标记后停止?

我正在使用BeautifulSoup来解析这个网站: https://www.baseball-reference.com/postseason/1905_WS.shtml 在网站内部,有以下元素 我正在使用 BeautifulSoup 来解析这个网站: https://www.baseball-reference.com/postseason/1905_WS.shtml 网站内有以下元素 <div id="all_post_pitching_NYG" class="table_wrapper"> 该元素作为包装器应包含以下元素: <div class="section_heading assoc_post_pitching_NYG as_controls" id="post_pitching_NYG_sh"> <div class="placeholder"></div> 很长的 HTML 注释 <div class="topscroll_div assoc_post_pitching_NYG"> <div class="table_container is_setup" id="div_post_pitching_NYG"> <div class="footer no_hide_long" id="tfooter_post_pitching_NYG"> 我一直在使用: response = requests.get(url) response.raise_for_status() soup = BeautifulSoup(response.content, "html.parser") pitching = soup.find_all("div", id=lambda x: x and x.startswith("all_post_pitching_"))[0] for div in pitching: print(div) 但是它只会打印非常长的绿色 HTML 注释,然后它就不会打印 (4) 或更长的时间。我做错了什么? 检查特殊字符串: Tag、NavigableString 和 BeautifulSoup 几乎涵盖了您在 HTML 或 XML 文件中看到的所有内容,但还有一些剩余的部分。您可能会遇到的主要问题是评论。 一个简单的解决方案可能是替换 HTML 字符串中的 注释字符,以将其显示为 BeautifulSoup: import requests from bs4 import BeautifulSoup soup = BeautifulSoup( requests.get('https://www.baseball-reference.com/postseason/1905_WS.shtml').text.replace('<!--','').replace('-->','') ) pitching = soup.select('div[id^="all_post_pitching_"]')[0] for e,div in enumerate(pitching.select('div'),1): print(e,div) 更具体的替代方法是使用 bs4.Comment

回答 1 投票 0

如何使用 Chrome DevTools 协议 (CDP) 而不是 Selenium 或 Puppeteer 来检测 Web 抓取工具?

我遇到一个问题,我的网站成为网络抓取机器人的目标。看来攻击者正在直接使用 Chrome DevTools 协议 (CDP) 控制 Chrome 浏览器,r...

回答 1 投票 0

在 python 中使用 requests_html 模块时出现“OSError: Chromium downloadable not found at”

我正在Python中使用requests_html模块来动态渲染网页。但是,当使用渲染方法时,我一直面临着 chromium 下载的问题(参见下面的代码片段): 响应 = s...

回答 1 投票 0

Excel VBA:未找到元素 ---> NoSuchElementError

我正在尝试使用 Excel VBA 和 Seleinum Web 驱动程序自动进行网页浏览。我正处于浏览网站的第一步,但我卡住了。我无法找到用户名和密码的元素...

回答 1 投票 0

Python Selenium 脚本无法从网页检索产品价格

我正在尝试使用 Python 和 Selenium 从 Ultra Liquors 网站上抓取产品价格,但尽管 HTML 包含预期元素,但我无法检索价格。我的目标是...

回答 1 投票 0

如何抓取像彭博社这样的网站?

所以我正在尝试一个新的网络抓取项目,我想从彭博社和金融时报等网站获取数据。 我在 Python 中使用 Selenium,当我运行脚本来打印整个内容时......

回答 1 投票 0

在 R 中,抓取时,我收到错误,因为它识别了一个额外的列,然后没有识别它

我正在尝试从特定连锁店的各个商店特定网址中抓取商店信息。我正在使用R 我首先测试我的刮擦并收到错误消息 变异错误(., ...

回答 1 投票 0

尝试抓取动态网页上的谷歌地图链接,其中一些成功,但另一些则失败

我正在尝试在一个名为 Timable 的提供公共活动的网站上获取时间和地点信息,它使用 Google 地图来显示详细位置,有些活动只有一个位置......

回答 1 投票 0

如何一次性提取多个站点中具有相同模式的URL?

我正在尝试从网站下载视频,这需要提取每个“视频网址”上的 1 个“下载网址”。 例子: “视频网址”:https://www.example.com/...

回答 1 投票 0

如何使用 R 或 Python 一次性提取多个站点中具有相同模式的 url?

我正在尝试从网站下载视频,这需要提取每个“视频网址”上的 1 个“下载网址”。 例子: “视频网址”:https://www.example.com/...

回答 1 投票 0

R 中的网页抓取数据表不起作用,XML 或 getURL

通常我从网站获取表数据没有任何问题,但是这个让我陷入了困境。 我尝试过该网站的各种建议: [https://stackoverflow.com/questions/36392964/r-

回答 1 投票 0

我需要帮助从受保护的资源中抓取数据

我需要从资源中抓取大量文本(html)(mayocliniclabs.org,它有一个 /test_catalog,其中包括我需要以文本格式保存的数千页有关生物标记物的页面)....

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.