beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

如何去掉像 ' 这样的字符而不是撇号? [重复]

可能的重复: 在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 我正在尝试使用 Python 抓取网站。我导入并使用 urllib2、BeautifulSoup 和 re 模块。 回复...

回答 1 投票 0

beautifulSoup 屏幕抓取不正确嵌套的列表 <ul>s

我对 BeautifulSoup 非常陌生,在过去的三天里,我试图从 http://www.ucanews.com/diocesan-directory/html/ordinary-of-philippine-cagayandeoro 获取教堂列表-parishes.html。 ...

回答 1 投票 0

bs4 抓取无输出

我是一个初学者,希望使用 bs4 来抓取图像中突出显示的数字,但结果我一直收到一个空列表。 导入请求 从 bs4 导入 BeautifulSoup url =“https...

回答 1 投票 0

如何使用 Beautiful Soup 提取此 HTML 元素属性的值?

我正在开发一个小工具来抓取网页。我用的是美丽汤。我想从页面中获取类 ID。 HTML 代码看起来像这样:

回答 0 投票 0

在 Python 中抓取基于 Javascript 的网页

我正在用Python开发一个屏幕抓取工具。但是,当我查看网页源代码时,我注意到大部分数据都是通过 JavaScript 来的。 任何想法,如何抓取 javascript

回答 3 投票 0

将图像从一个站点抓取到另一个站点

我是新来的,总体来说对网络开发还很陌生。 我的背景是 3D 建模和设计,但我最近启动了一个项目,我认为该项目可能是 3D 社区的一个很好的资源。 ...

回答 2 投票 0

Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法

使用 BeautifulSoup 从少数网页(使用 URL 列表)中抓取文本的最简单方法是什么?有可能吗? 最好的, 乔治娜

回答 3 投票 0

提取 Google 搜索结果重定向

我读过几篇关于如何提取 Google 搜索结果 URL 的 stackoverflow 帖子,并使用 python、curl 和 beautifulsoup 编写了类似的实现。 我的问题是,我怎样才能

回答 1 投票 0

python BeautifulSoup解析表

我正在学习 python requests 和 BeautifulSoup。 作为练习,我选择编写一个快速的纽约停车罚单解析器。 我能够得到一个相当难看的 html 响应。 我需要抓住

回答 6 投票 0

为什么我的抓取工具无法获取 Google 地图上的所有数据?

我有一个谷歌地图抓取器。抓取工具应该向下滚动结果,直到没有任何内容可以滚动,抓取数据(名称、地址等)并将其保存到 Excel 中。 该程序可以完成一切

回答 1 投票 0

使用concurrent.futures优化Python Web Scraping脚本以减少执行时间

我目前正在使用 Python 编写一个网页抓取脚本,该脚本使用 urllib、BeautifulSoup 和 pandas 从网站的多个页面中提取表数据。该脚本旨在处理内容

回答 1 投票 0

美汤findAll没有找到值

我想用beautifulsoup用下面的代码写出这个网站上产品的价格,但是当我写代码时,列表返回空。 将请求导入为 bs4 import BeautifulS...

回答 3 投票 0

如何使用 beautifulsoup 查找包含多个 td 的 tr 包含特定文本?

我需要找到多个包含特定文本的数据(10.13.18.150,StreaNetwork) 我需要找到多个<tr>包含特定文本的<td>数据(10.13.18.150,StreaNetwork) <tr id="fr119" onclick="fr_toggle(119)" ondblclick="document.location='firewall_rules_edit.php?id=120';" class="ui-sortable-handle" style=""> <td> <input type="checkbox" id="frc119" onclick="fr_toggle(119)" name="rule[]" value="120"> </td> <td title="traffic is passed"> <a href="?if=lan&amp;act=toggle&amp;id=120" usepost=""> <i class="fa fa-check text-success" title="click to toggle enabled/disabled status"></i> </a> <i class="fa fa-cog" title="advanced setting: gateway PeakJioAirtel " style="cursor: pointer;"></i> </td> <td> 10.13.18.150 </td> <td> StreaNetwork </td> </tr> 我的代码: from bs4 import BeautifulSoup complete_soup = BeautifulSoup(html_data, 'html.parser') complete_soup.find('tr:has(td:contains("StreaNetwork"))') 这个问题有什么解决办法吗? 查找所有 tr 而不是检查它是否包含 StreaNetwork TD 运行所有TR的循环并获取所有TD标签 运行所有 TD 的循环并获取其文本以检查它是否包含字符串 尝试将 find() 调整为 select() 以使用 css selectors,您的脚本将抓取 <tr>。 此外,如果内容仍在该元素中,则迭代 Resultset 并打印 :nth-child(3): complete_soup = BeautifulSoup(html_data, 'html.parser') for e in complete_soup.select('tr:has(td:contains("StreaNetwork"))'): print(e.select_one(':nth-child(3)').get_text(' ',strip=True))

回答 2 投票 0

如何取消Beautiful Soup中标签的嵌套?

我有一个与此类似的 html 文档: 标题 ... 我有一个与此类似的 html 文档: <div> <h2>Title</h2> <div> <div> <div> <img alt="Some image" src="blah.gif"/> </div> </div> </div> 我想将它提取出来最终看起来像这样(即删除空的嵌套 div) <h2>Title</h2> <div> <img alt="Some image" src="blah.gif"/> </div> 如果外部 div 包含某些内容,我不介意保留它,但我想删除任何不必要的嵌套内容。 澄清一下,当我有一个 div 时,它包含另一个 div ,仅此而已,然后我想删除(展开)内部 div,即所以代替: div>div>div>div>div>img 我只想: div>img 这是我写的POC,欢迎对代码提出任何建议。 您可以向函数test添加条件,它将递归地查找元素匹配条件并删除最外层。 from bs4 import BeautifulSoup mytext =""" <div> <h2> At least he didn't go in for the hug. </h2> <div> <div> <div> <img alt="At least he didn't go in for the hug." src="handshake-fails-are-embarrassing\9lmzspj.gif"/> </div> </div> </div> """ soup = BeautifulSoup(mytext) def test(x): children = x.find_all(recursive=False) try: # only one child cri_1 = (len(children) == 1) # same name as its child cri_2 = (children[0].name == x.name) # no attribute but tag name cri_3 = (len(x.attrs) == 0) return cri_1 and cri_2 and cri_3 except: return False while soup.find_all(lambda x: test(x)): elements = soup.find_all(lambda x: test(x)) elements[0].unwrap() print soup.prettify() 输出: <html> <body> <div> <h2> At least he didn't go in for the hug. </h2> <div> <img alt="At least he didn't go in for the hug." src="handshake-fails-are-embarrassing\9lmzspj.gif"/> </div> </div> </body> </html>

回答 1 投票 0

从网站上抓取纬度和经度

我想使用此网站的数据将邮政编码列表转换为纬度和经度的 DataFrame:免费地图工具。 https://www.freemaptools.com/convert-us-zip-code-to-lat-lng.htm#

回答 1 投票 0

使用谷歌新闻RSS链接抓取文章数据时如何处理谷歌同意页面?

我有一个来自 google RSS feed 的 google 新闻链接列表,我想获取这些文章的全文。我使用 BeautifulSoup 库来抓取数据,但是,谷歌似乎重定向了......

回答 1 投票 0

无法产生包含我希望获得的地址的结果

我正在尝试使用此网站的 requests 模块和 BeautifulSoup 库创建一个脚本,该脚本将执行以下操作: 选择Strata plan number按钮,在输入框中输入11,...

回答 1 投票 0

如何使用 BeautifulSoup 和 pandas 从维基百科中提取表格

我正在尝试从维基百科页面中提取表格并将其显示在 pandas DataFrame 中。这是我的代码: 从 bs4 导入 BeautifulSoup 导入请求 将 pandas 导入为 pd url = "https://en.

回答 1 投票 0

使用 BeatifulSoup 提取下拉菜单的项目列表

我已经尝试了很多方法,但事实证明这个网站很难通过 bs4 抓取。这是网址:https://www.nseindia.com/option-chain 我正在尝试提取...

回答 1 投票 0

无法使用请求模块从静态网页中抓取不同的公司名称

我创建了一个脚本来使用请求模块从该网站收集不同的公司名称,但是当我执行该脚本时,它最终什么也没得到。我查找了我的公司名称...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.