Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
使用 BeautifulSoup 抓取第一个表时出现 HTTP 错误 404,但第二个表工作正常
我正在编写一个 Python 脚本,使用 BeautifulSoup 从 Investing.com 抓取历史 CDS 数据。目标是从页面上的特定表中提取数据并将其编译成 DataFrame。 哈...
使用 Selenium 在 Python 中进行网页抓取自动化的问题
我的 ETL 流程遇到问题。让我解释一下我的问题,我有这段代码: 导入时间 从硒导入网络驱动程序 从 selenium.webdriver.common.by 导入 将 pandas 导入为 pd 导入
selenium 的驱动程序在 python 中获取错误页面
我正在努力为足球锦标赛争取一定的赔率。为此,我编写了一段代码,它首先生成我想要的确切链接,然后加载相应的页面。问题是,...
在尝试使用 beautiful soup 抓取数据时,我不断收到“远程主机强制关闭现有连接”的消息。 (Python 3.8.5)
我正在尝试从 zacks.com 抓取数据,但在程序运行之前,我收到“ConnectionResetError:[WinError 10054]现有连接被远程主机强制关闭。&qu...
使用firefox selenium抓取无限滚动的页面,导致错误,可能是由于数据太多
我正在尝试在聚会上使用无限滚动来抓取此页面以获取过去事件的列表。我想要获取事件列表,包括名称、日期和 URL(大部分只是名称,其他 2 个是可选的)。
现在我正在这个网站上做刮评产品 https://www.lazada.com.my/products/xiaomi-mi-a1-4gb-ram-32gb-rom-i253761547-s336359472.html?spm=a2o4k.searchlistcategory.list.64.71546883QBZ...
漂亮的汤 - 想要比较 XML 中每个父元素的特定子元素的长度
我有一个庞大的 XML 文档,我想解析它,对于每个特定元素,我想检查所有子元素的电子邮件地址,如果找到一个,则计算长度。 XML 做...
如何在 beautifulsoup 中获取文本作为 .innerText 而不是 JS 中的 .textContent
我有一个 HTML 文件,其中包含 p 标记内的文本,如下所示: Lorem ipsum dolor sat amet, consectetur adipiscing elit。 Maecenas sed mi lacu... 我有一个 HTML 文件,其中包含 p 标记内的文本,如下所示: <body> <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat</p> </body> 使用 Python 和 BeautifulSoup 我尝试获取 p 标签中的文本,例如: with open("foo.html", 'r', encoding='utf-8') as f: soup = BeautifulSoup(f.read(), 'lxml') p = soup.p print(p.text) 结果: 'Lorem ipsum dolor sit amet, \n\t\tconsectetur adipiscing elit. \n\t\tMaecenas sed mi lacus. \n\t\tVivamus luctus vehicula lacus, \n\t\tut malesuada justo posuere et. \n\t\tDonec ut diam volutpat' 问题是我将结果与 并出现在原始文件中(如 JS 中的 .textContent)。我需要一个类似于 JS 中的 .innerText 的解决方案,它返回用户在浏览器中看到的内容。 我尝试使用p.text.replace("\n", " ").replace("\t", "")但是对于更复杂的事情,比如标签中的标签,它根本不起作用(比如不必要的空格)。 有人知道如何做到这一点吗?预先感谢! 如果我理解正确的话,您可以使用正则表达式来更改文本。考虑这个例子: from bs4 import BeautifulSoup html_text = """\ <body> <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. <span>This is inner span.</span> Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat</p> </body>""" soup = BeautifulSoup(html_text, "html.parser") print(soup.p.text) 打印: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat 你可以这样做: import re print(re.sub(r"\s{2,}", " ", soup.p.text)) 这会响起: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat
我正在用Python进行网页抓取,我发现了这个: 产品 = soup.find_all('li') 产品列表 = [] 对于产品中的产品: 名称 = 产品.h2.字符串 价格 = 产品.find('p', string=l...
使用 Python BeautifulSoup 进行网页抓取
我想通过使用Python BeautifulSoup从网站上进行网页抓取来收集数据,用于我的数据分析项目。 我想从网站收集的数据; 日期: 06.07.2027 舞台:伯格海恩,
想用 Selenium 进行抓取,但网页(Cloudflare)认为我是一个机器人。 我尝试添加选项、无头、等待特定 ID 出现,但网页从未完全加载。 怎么...
我想废弃一个网站,当我到达任何标签时,链接是“job/undefined”,我使用post请求从页面获取数据。 在此代码中使用 postdata 发布请求: 来自 BS4
尝试使用 python 抓取在线招聘网站时出现 403 错误
我正在尝试为我的 coursera 项目抓取在线求职网站。 我一直收到 403 错误,在网上搜索了它的含义后,我发现这意味着 web si...
Beautiful Soup - 获取所有文本,但保留链接 html?
我必须将大量极其混乱的 HTML 档案处理成 Markdown,其中充满了无关的表格、跨度和内联样式。 我正在尝试使用 Beautiful Soup 来完成这个任务,我的目标是
Python BeautifulSoup - 如何抓取<a><td>中值内的链接
我正在学习网络抓取,并尝试从以下链接中抓取数据。有没有办法让我也从每个 td 中抓取链接? 网站链接:http://eecs.qmul.ac.uk/postgrad...
在 Python 中使用 BeautifulSoup 抓取 HTML
我正在尝试抓取以下网站以获取特定日期的可用开球时间:https://mt-prospect-golf-club.book.teeitup.golf/?course=10277&date=2024-08-27。 理想情况下,我想...
我创建了Cronjob来每24小时执行一次脚本,我注意到当代码在本地计算机上的cron进程期间自行编译时会发生此错误我没有注意到这个问题。 我...
如何在 BeautifulSoup.contents 中保留空格
我在网上找到的大多数示例都展示了如何删除空格 - 但就我而言,我需要保留它..我有 html =“我可以用一只手翻转整个东西 D#m...
如何在Python中使用BeautifulSoup抓取来获取aria-label
我的html中有大量的div类。每个 div 类都包含一个 h3 类,其中包含一个 div aria-label,我想在 python 文件中抓取其文本。我已经能够创建一个列表...
我正在尝试提取 URL 流,但被卡住了。我从中提取数据的 URL 重定向到一个页面,该页面具有该 URL,然后必须单击该 URL 才能转到该页面的 URL 我实际上...