Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
我正在尝试从此处分页表的前 3 页中抓取数据:https://www.fda.gov/safety/recalls-market-withdrawals-safety-alerts。到目前为止我只能从第一页获取数据...
如何使用Python和BeautifulSoup将<br>分隔的段落转换为多个段落?
一些 html 编写者在 中使用 ,当使用 bs4 抓取它们时很难将它们分开。 例子: 第1部分 第2部分 第三部分 第四部分 ...
FCC 有一个数据库,其中包含有关各种广播许可证的详细信息。许多许可证都有这样的页面 这些页面(以及相关页面)上的大部分数据都可以很容易地抓取...
如何使用 BeautifulSoup 更改 HTML <div> 的类?
我正在使用Python和BeautifulSoup修改HTML文件,我可以更改标题的内容,但我找不到更改div类的方法。我的目标是转向: 我正在使用Python和BeautifulSoup修改HTML文件,我可以更改标题的内容,但我找不到更改div类的方法。我的目标是转向: <div id="div1" class="blue_titles">test</div> 进入: <div id="div1" class="green_titles">test</div> 我查阅了文档,但无济于事。它可能就在我的脸上,但我找不到它。 您可以简单地将新值分配给键class: from bs4 import BeautifulSoup soup = BeautifulSoup("""<div id="div1" class="blue_titles">test</div>""", "lxml") soup.find("div")['class'] = "green_titles" soup # <html><body><div class="green_titles" id="div1">test</div></body></html>
所以基本上,我想从 https://www.mancity.com/fixtures 网站中提取有关即将到来的比赛日期的所有文本,并将其放入列表中。 问题是,我无法提取
我有 div 对象 20:17 ... 我有 div 对象 <div class="body"> <div class="pull_right date details" title="21.11.2024 20:17:23 UTC+07:00"> 20:17 </div> <div class="from_name"> Cheki_FNS </div> <div class="text"> Cash receipt received: from <strong>Komandor trading network</strong> (LLC "TS KOMANDOR") </div> </div> </div> 我使用下一个代码: with open("messages.html", "r", encoding="utf-8") as file: html_content = file.read() soup = BeautifulSoup(html_content, "xml") div_text = soup.find("div", class_="text") if div_text: print(div_text.get_text()) else: print("Error, class text not find") 我期待得到下一行 - “已收到现金收据:来自 Komandor 交易网络 (TS Komandor LLC)”,但我得到“20:17 Cheki_FNS 已收到现金收据:来自 Komandor 交易网络 (TS Komandor LLC)”科曼多有限责任公司)”。文本的某些部分超出了 div 对象的范围,这真的是一个问题吗? 根据您的示例,您的选择是正确的,因此请确保您从文件中获得了准确的输入。 您还应该检查以下几点: 检查某些文件中是否存在另一个 <div>,其类别为 text 不要使用 xml 解析器,它是 HTML -> 概述解析器 如果需要链接元素及其属性,可以使用css selectors from bs4 import BeautifulSoup soup = BeautifulSoup(html_content) print(soup.find("div", class_="text").get_text(strip=True)) print(soup.select_one("div.text").get_text(strip=True))
我有 div 对象 20:17 ... 我有 div 对象 <div class="body"> <div class="pull_right date details" title="21.11.2024 20:17:23 UTC+07:00"> 20:17 </div> <div class="from_name"> Cheki_FNS </div> <div class="text"> Cash receipt received: from <strong>Komandor trading network</strong> (LLC "TS KOMANDOR") </div> </div> </div> 我使用下一个代码: with open("messages.html", "r", encoding="utf-8") as file: html_content = file.read() soup = BeautifulSoup(html_content, "xml") div_text = soup.find("div", class_="text") if div_text: print(div_text.get_text()) else: print("Error, class text not find") 我期待得到下一行 - “已收到现金收据:来自 Komandor 交易网络 (TS Komandor LLC)”,但我得到“20:17 Cheki_FNS 已收到现金收据:来自 Komandor 交易网络 (TS Komandor LLC)”科曼多有限责任公司)”。文本的某些部分超出了 div 对象的范围,这真的是一个问题吗? 根据您的示例,您的选择是正确的,因此请确保您从文件中获得了准确的输入。 您还应该检查以下几点: 不要使用 xml 解析器,它是 HTML 可以使用CSS选择器 从 bs4 导入 BeautifulSoup html_内容=''' <div class="pull_right date details" title="21.11.2024 20:17:23 UTC+07:00"> 20:17 <div class="from_name"> Cheki_FNS <div class="text"> 收到的现金收据:来自Komandor交易网络(有限责任公司“TS KOMANDOR”) </div> </div ''' 汤 = BeautifulSoup(html_content) print(soup.find("div", class_="text").get_text(strip=True)) print(soup.select_one("div.text").get_text(strip=True))
我正在创建一个Python程序,它使用网络抓取来检查商品是否有库存。该代码是一个 Python 3.9 脚本,使用 Beautiful Soup 4 并请求抓取该项目的可用性。我...
我正在尝试解析https://rateyourmusic.com/release/album/tyler-the-creator/igor/reviews/1/ 如果我将 html 文件本地下载到我的系统上,我可以访问具有 class_=review_body 的 div...
我正在第一次尝试数据抓取,但无法获取我想要的特定数据。最终,我想确定所有在
我整理了以下Python代码来获取随机作者发表的论文的链接(来自谷歌学者): 导入请求 从 bs4 导入 BeautifulSoup as bs 将 pandas 导入为 pd ...
如何使用 BeautifulSoup 在 tripadvisor 上抓取评级和日期
我正在尝试在猫途鹰上抓取这家酒店的一些信息(评论、日期、评分) 到目前为止,这是我的脚本: 进口再 导入 json 导入请求 从请求导入获取 来自 BS4 我...
有以下网站的截图:news ge 我想提取注释,正如您所看到的,它位于带有 c_comment 类的 div 标签下,所以我实现了以下代码: 导入
我有一个函数,旨在提取html以在另一个函数中将其呈现为pdf def setLinks(自身, 值): if isinstance(value, str) and ('<' in value and '>' in value):
出于个人兴趣,我想在以下网页上抓取汽车评论 www.cardekho.com/user-reviews/maruti-alto-800 我成功地用下面的代码在第一页上抓取了评论......
出于个人兴趣,我想在以下网页上进行报废汽车评论 www.cardekho.com/user-reviews/maruti-alto-800 我使用以下代码成功取消了第一页上的评论...
尝试从雅虎财经网络抓取 S&P500 数据,但尽管格式正确但无法检索
我一直在尝试从雅虎财经网络抓取数据,特别是标准普尔 500 指数的历史数据,其网页网址为“https://finance.yahoo.com/quote/%5EGSPC/history/?period1=157407.. .
使用 BeautifulSoup 查找多个具有相同类的 div 中的所有“a”标签
我想在具有相同类的多个div中找到所有“a”元素。 从 bs4 导入 BeautifulSoup links = soup.find_all("div", class_="va-columns").find_all("a"...
我正在尝试使用 beautiful soup 编写代码,打印此网页上左手灰色框中的链接文本。在这种情况下,代码应该返回 ** 结界抱石 一个...
使用雅虎财经的 beautifulsoup 进行屏幕抓取适用于除一只股票之外的所有股票
我已经尝试了好几天来解决这个问题,但已经没有想法了。我正在使用 Python3 和 Beautifulsoup 从雅虎财经获取股票价格。它适用于大约一百种不同的情况...