beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

使用 div 标签进行网页抓取

有以下网站的截图:news ge 我想提取注释,正如您所看到的,它位于带有 c_comment 类的 div 标签下,所以我实现了以下代码: 导入

回答 1 投票 0

美丽的汤复制链接文本

我有一个函数,旨在提取html以在另一个函数中将其呈现为pdf def setLinks(自身, 值): if isinstance(value, str) and ('<' in value and '>' in value):

回答 1 投票 0

使用 Selenium 进行页面导航

出于个人兴趣,我想在以下网页上抓取汽车评论 www.cardekho.com/user-reviews/maruti-alto-800 我成功地用下面的代码在第一页上抓取了评论......

回答 1 投票 0

[网页抓取]使用selenium进行页面导航

出于个人兴趣,我想在以下网页上进行报废汽车评论 www.cardekho.com/user-reviews/maruti-alto-800 我使用以下代码成功取消了第一页上的评论...

回答 1 投票 0

尝试从雅虎财经网络抓取 S&P500 数据,但尽管格式正确但无法检索

我一直在尝试从雅虎财经网络抓取数据,特别是标准普尔 500 指数的历史数据,其网页网址为“https://finance.yahoo.com/quote/%5EGSPC/history/?period1=157407.. .

回答 1 投票 0

使用 BeautifulSoup 查找多个具有相同类的 div 中的所有“a”标签

我想在具有相同类的多个div中找到所有“a”元素。 从 bs4 导入 BeautifulSoup links = soup.find_all("div", class_="va-columns").find_all("a"...

回答 1 投票 0

使用BeautifulSoup从文本框中提取标题

我正在尝试使用 beautiful soup 编写代码,打印此网页上左手灰色框中的链接文本。在这种情况下,代码应该返回 ** 结界抱石 一个...

回答 1 投票 0

使用雅虎财经的 beautifulsoup 进行屏幕抓取适用于除一只股票之外的所有股票

我已经尝试了好几天来解决这个问题,但已经没有想法了。我正在使用 Python3 和 Beautifulsoup 从雅虎财经获取股票价格。它适用于大约一百种不同的情况...

回答 1 投票 0

从元内容中提取文本

让我们假设我们有以下网站:第比利斯的房屋价格 我已经实现了我的代码片段及其相应的结果: div_class =content.find_all("...

回答 1 投票 0

使用 BeautifulSoup 如何从具有多个类的元素中删除单个类?

我希望从具有多个类名的元素中删除单个类名,如下所示: 我希望从具有多个类名的元素中删除单个类名,如下所示: <li class="name1 name2 name3"> <a href="http://www.somelink.com">link</a> </li> 我可以使用 BeautifulSoup 通过以下方式删除类: soup.find(class_="name3")["class"] = "" 但这会删除所有课程,而不仅仅是我想失去的课程。 从你的html中,你可以看到, print soup.find(class_="name3").attrs {'class': ['name1', 'name2', 'name3']} 因此,soup.find(class_="name3")['class']只返回一个列表。您可以从中删除元素,就像您可以从列表中删除元素一样。喜欢, soup.find(class_="name3")["class"].remove('name1') 这将删除您想要失去的课程。 您可以使用生成器表达式来重建您想要保留的类名 s = 'name1 name2 name3' s = ' '.join(i for i in s.split() if i != 'name3') >>> s 'name1 name2'

回答 2 投票 0

提取跨度值

我觉得我已经很接近了,但在几个小时没有进展之后我正在尝试这里。 我想抓取跨度值并将它们分配给变量或列表以进行进一步处理。 导入请求 从 BS4 导入

回答 1 投票 0

我无法使用Try-除了py

我有一个页面想要抓取,但并不总是可以抓取 我希望代码 24/7 运行 所以我做了这个 导入请求 导入响应 从 bs4 导入 BeautifulSoup 我...

回答 1 投票 0

使用 beautiful soup + python 从网站上抓取元素很困难:为什么?

网站:https://www.wingsforlife.com/uk/ 我正在努力从上述网站上抓取文章标题和链接。标题名称的示例为“推动治愈的新颖资助模式”...

回答 1 投票 0

使用 python 从网站上的隐藏选项卡进行网页抓取

我正在使用 bs4 和 selenium 来抓取土地拍卖网站(URL https://bid.hertz.ag/ui/auctions/112571/14320874),但我无法抓取拍卖日期和附件链接在 '

回答 1 投票 0

Python 请求处理带有点的 YahooFinance URL 时出错

我想用我为雅虎财经股票页面编写的解析脚本向您展示这个随机问题。 导入请求 从 bs4 导入 BeautifulSoup headers ={'User-Agent':'Mozilla/5.0 (Windows N...

回答 1 投票 0

如何修复 ValueError:无法设置列不匹配的行 |美丽的汤

我收到错误: ValueError:无法设置列不匹配的行 从维基百科上抓取时。见下文。我该如何解决这个问题? 从 bs4 导入 BeautifulSoup 将 pandas 导入为 pd 导入

回答 2 投票 0

ValueError:无法设置列不匹配的行--beautifulSoup

我在从维基百科抓取时收到“ValueError:无法设置列不匹配的行错误”。见下文。我该如何解决这个问题? 从 bs4 导入 BeautifulSoup 将 pandas 导入为 pd 导入请求...

回答 1 投票 0

为什么 BeautifulSoup find_all() 方法在 HTML 注释标记后停止?

我正在使用BeautifulSoup来解析这个网站: https://www.baseball-reference.com/postseason/1905_WS.shtml 在网站内部,有以下元素 我正在使用 BeautifulSoup 来解析这个网站: https://www.baseball-reference.com/postseason/1905_WS.shtml 网站内有以下元素 <div id="all_post_pitching_NYG" class="table_wrapper"> 该元素作为包装器应包含以下元素: <div class="section_heading assoc_post_pitching_NYG as_controls" id="post_pitching_NYG_sh"> <div class="placeholder"></div> 很长的 HTML 注释 <div class="topscroll_div assoc_post_pitching_NYG"> <div class="table_container is_setup" id="div_post_pitching_NYG"> <div class="footer no_hide_long" id="tfooter_post_pitching_NYG"> 我一直在使用: response = requests.get(url) response.raise_for_status() soup = BeautifulSoup(response.content, "html.parser") pitching = soup.find_all("div", id=lambda x: x and x.startswith("all_post_pitching_"))[0] for div in pitching: print(div) 但是它只会打印非常长的绿色 HTML 注释,然后它就不会打印 (4) 或更长的时间。我做错了什么? 检查特殊字符串: Tag、NavigableString 和 BeautifulSoup 几乎涵盖了您在 HTML 或 XML 文件中看到的所有内容,但还有一些剩余的部分。您可能会遇到的主要问题是评论。 一个简单的解决方案可能是替换 HTML 字符串中的 注释字符,以将其显示为 BeautifulSoup: import requests from bs4 import BeautifulSoup soup = BeautifulSoup( requests.get('https://www.baseball-reference.com/postseason/1905_WS.shtml').text.replace('<!--','').replace('-->','') ) pitching = soup.select('div[id^="all_post_pitching_"]')[0] for e,div in enumerate(pitching.select('div'),1): print(e,div) 更具体的替代方法是使用 bs4.Comment

回答 1 投票 0

BeautifulSoup find_all() 方法在 HTML 注释标记后停止

我正在使用BeautifulSoup来解析这个网站:https://www.baseball-reference.com/postseason/1905_WS.shtml 网站里面有一个 我正在使用 BeautifulSoup 来解析这个网站:https://www.baseball-reference.com/postseason/1905_WS.shtml 网站内有一行<div id="all_post_pitching_NYG" class="table_wrapper">。里面有一个 (1) <div class="section_heading assoc_post_pitching_NYG has_controls" id="post_pitching_NYG_sh"> (2) <div class="placeholder"></div> (3) 很长的 HTML 注释 (4) <div class="topscroll_div assoc_post_pitching_NYG"> (5) <div class="table_container is_setup" id="div_post_pitching_NYG"> (6) <div class="footer no_hide_long" id="tfooter_post_pitching_NYG"> 我一直在用 response = requests.get(url) response.raise_for_status() soup = BeautifulSoup(response.content, "html.parser") pitching = soup.find_all("div", id=lambda x: x and x.startswith("all_post_pitching_"))[0] for div in pitching: print(div) 但它只会打印非常长的绿色 HTML 注释,然后它永远不会打印 (4) 或更长的时间。我做错了什么?预先感谢! 检查特殊字符串: Tag、NavigableString 和 BeautifulSoup 几乎涵盖了您在 HTML 或 XML 文件中看到的所有内容,但还有一些剩余的部分。您可能会遇到的主要问题是评论。 一个简单的解决方案可能是替换 HTML 字符串中的 注释字符,以将其显示为 BeautifulSoup: soup = BeautifulSoup( requests.get('https://www.baseball-reference.com/postseason/1905_WS.shtml').text.replace('<!--','').replace('-->','') ) 更具体的替代方法是使用 bs4.Comment

回答 1 投票 0

如何使用 beautiful soup 从 HTML 内容中选择特定的 div 或 pragraph 标签?

我正在使用 beautiful soup 从 HTML 数据中提取一些文本内容。我有一个 div 和几个段落标签,最后一段是版权信息,带有版权徽标、年份和...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.