Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
可能的重复: 在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 我正在尝试使用 Python 抓取网站。我导入并使用 urllib2、BeautifulSoup 和 re 模块。 回复...
beautifulSoup 屏幕抓取不正确嵌套的列表 <ul>s
我对 BeautifulSoup 非常陌生,在过去的三天里,我试图从 http://www.ucanews.com/diocesan-directory/html/ordinary-of-philippine-cagayandeoro 获取教堂列表-parishes.html。 ...
我是一个初学者,希望使用 bs4 来抓取图像中突出显示的数字,但结果我一直收到一个空列表。 导入请求 从 bs4 导入 BeautifulSoup url =“https...
如何使用 Beautiful Soup 提取此 HTML 元素属性的值?
我正在开发一个小工具来抓取网页。我用的是美丽汤。我想从页面中获取类 ID。 HTML 代码看起来像这样:
我正在用Python开发一个屏幕抓取工具。但是,当我查看网页源代码时,我注意到大部分数据都是通过 JavaScript 来的。 任何想法,如何抓取 javascript
我是新来的,总体来说对网络开发还很陌生。 我的背景是 3D 建模和设计,但我最近启动了一个项目,我认为该项目可能是 3D 社区的一个很好的资源。 ...
Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法
使用 BeautifulSoup 从少数网页(使用 URL 列表)中抓取文本的最简单方法是什么?有可能吗? 最好的, 乔治娜
我读过几篇关于如何提取 Google 搜索结果 URL 的 stackoverflow 帖子,并使用 python、curl 和 beautifulsoup 编写了类似的实现。 我的问题是,我怎样才能
我正在学习 python requests 和 BeautifulSoup。 作为练习,我选择编写一个快速的纽约停车罚单解析器。 我能够得到一个相当难看的 html 响应。 我需要抓住
为什么我的抓取工具无法获取 Google 地图上的所有数据?
我有一个谷歌地图抓取器。抓取工具应该向下滚动结果,直到没有任何内容可以滚动,抓取数据(名称、地址等)并将其保存到 Excel 中。 该程序可以完成一切
使用concurrent.futures优化Python Web Scraping脚本以减少执行时间
我目前正在使用 Python 编写一个网页抓取脚本,该脚本使用 urllib、BeautifulSoup 和 pandas 从网站的多个页面中提取表数据。该脚本旨在处理内容
我想用beautifulsoup用下面的代码写出这个网站上产品的价格,但是当我写代码时,列表返回空。 将请求导入为 bs4 import BeautifulS...
如何使用 beautifulsoup 查找包含多个 td 的 tr 包含特定文本?
我需要找到多个包含特定文本的数据(10.13.18.150,StreaNetwork) 我需要找到多个<tr>包含特定文本的<td>数据(10.13.18.150,StreaNetwork) <tr id="fr119" onclick="fr_toggle(119)" ondblclick="document.location='firewall_rules_edit.php?id=120';" class="ui-sortable-handle" style=""> <td> <input type="checkbox" id="frc119" onclick="fr_toggle(119)" name="rule[]" value="120"> </td> <td title="traffic is passed"> <a href="?if=lan&act=toggle&id=120" usepost=""> <i class="fa fa-check text-success" title="click to toggle enabled/disabled status"></i> </a> <i class="fa fa-cog" title="advanced setting: gateway PeakJioAirtel " style="cursor: pointer;"></i> </td> <td> 10.13.18.150 </td> <td> StreaNetwork </td> </tr> 我的代码: from bs4 import BeautifulSoup complete_soup = BeautifulSoup(html_data, 'html.parser') complete_soup.find('tr:has(td:contains("StreaNetwork"))') 这个问题有什么解决办法吗? 查找所有 tr 而不是检查它是否包含 StreaNetwork TD 运行所有TR的循环并获取所有TD标签 运行所有 TD 的循环并获取其文本以检查它是否包含字符串 尝试将 find() 调整为 select() 以使用 css selectors,您的脚本将抓取 <tr>。 此外,如果内容仍在该元素中,则迭代 Resultset 并打印 :nth-child(3): complete_soup = BeautifulSoup(html_data, 'html.parser') for e in complete_soup.select('tr:has(td:contains("StreaNetwork"))'): print(e.select_one(':nth-child(3)').get_text(' ',strip=True))
我有一个与此类似的 html 文档: 标题 ... 我有一个与此类似的 html 文档: <div> <h2>Title</h2> <div> <div> <div> <img alt="Some image" src="blah.gif"/> </div> </div> </div> 我想将它提取出来最终看起来像这样(即删除空的嵌套 div) <h2>Title</h2> <div> <img alt="Some image" src="blah.gif"/> </div> 如果外部 div 包含某些内容,我不介意保留它,但我想删除任何不必要的嵌套内容。 澄清一下,当我有一个 div 时,它包含另一个 div ,仅此而已,然后我想删除(展开)内部 div,即所以代替: div>div>div>div>div>img 我只想: div>img 这是我写的POC,欢迎对代码提出任何建议。 您可以向函数test添加条件,它将递归地查找元素匹配条件并删除最外层。 from bs4 import BeautifulSoup mytext =""" <div> <h2> At least he didn't go in for the hug. </h2> <div> <div> <div> <img alt="At least he didn't go in for the hug." src="handshake-fails-are-embarrassing\9lmzspj.gif"/> </div> </div> </div> """ soup = BeautifulSoup(mytext) def test(x): children = x.find_all(recursive=False) try: # only one child cri_1 = (len(children) == 1) # same name as its child cri_2 = (children[0].name == x.name) # no attribute but tag name cri_3 = (len(x.attrs) == 0) return cri_1 and cri_2 and cri_3 except: return False while soup.find_all(lambda x: test(x)): elements = soup.find_all(lambda x: test(x)) elements[0].unwrap() print soup.prettify() 输出: <html> <body> <div> <h2> At least he didn't go in for the hug. </h2> <div> <img alt="At least he didn't go in for the hug." src="handshake-fails-are-embarrassing\9lmzspj.gif"/> </div> </div> </body> </html>
我想使用此网站的数据将邮政编码列表转换为纬度和经度的 DataFrame:免费地图工具。 https://www.freemaptools.com/convert-us-zip-code-to-lat-lng.htm#
我有一个来自 google RSS feed 的 google 新闻链接列表,我想获取这些文章的全文。我使用 BeautifulSoup 库来抓取数据,但是,谷歌似乎重定向了......
我正在尝试使用此网站的 requests 模块和 BeautifulSoup 库创建一个脚本,该脚本将执行以下操作: 选择Strata plan number按钮,在输入框中输入11,...
如何使用 BeautifulSoup 和 pandas 从维基百科中提取表格
我正在尝试从维基百科页面中提取表格并将其显示在 pandas DataFrame 中。这是我的代码: 从 bs4 导入 BeautifulSoup 导入请求 将 pandas 导入为 pd url = "https://en.
我已经尝试了很多方法,但事实证明这个网站很难通过 bs4 抓取。这是网址:https://www.nseindia.com/option-chain 我正在尝试提取...
我创建了一个脚本来使用请求模块从该网站收集不同的公司名称,但是当我执行该脚本时,它最终什么也没得到。我查找了我的公司名称...