beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

用美丽的汤抓取页面时遇到问题

我正在使用 Beautiful Soup 尝试抓取页面。 我正在尝试遵循本教程。 我试图在提交股票代码后获取以下页面的内容: http://www....

回答 1 投票 0

beautifulsoup 4:分段错误(核心已转储)

我抓取了以下页面: http://www.nasa.gov/topics/earth/features/plains-tornadoes-20120417.html 但是我在调用时遇到了分段错误(核心转储):BeautifulSoup(page_html),其中 pag...

回答 2 投票 0

python:带有 BeautifulSoup 的 Google 搜索爬虫

目标:传递一个搜索字符串在 google 上搜索并抓取 url、标题和与 url 标题一起发布的小描述。 我有以下代码,目前我的代码只给出

回答 3 投票 0

尝试通过 venv 在 Python 中使用 Beautifulsoup4,并在使用 VSCode 时收到“ModuleNotFoundError”

我面临一个相当小的问题,我无法使用库“Beautifulsoup4”。我使用 VSCode 作为 IDE,并使用 Python 版本 3.12.2 的 Venv。每次我尝试运行我的程序时,它都会给出...

回答 1 投票 0

PYTHON - 如何从动态生成数据的 MarketWatch.com 中抓取股票“关键数据”。找到数据请求调用了吗?

我正在开发一个示例/个人项目,每天从网站(例如市场观察)检索特定股票的股票数据,然后将数据与其他网站(例如

回答 2 投票 0

如何使用Python REQUESTS和BeautifulSoup抓取基于动态JavaScript的网站?

我正在抓取 https://www.shiksha.com/b-tech/colleges/b-tech-colleges-mumbai-all 来收集大学信息。 在每所学院下方的网页上,仅给出一个课程名称,其余课程......

回答 1 投票 0

Python 网页抓取;美丽的汤

这篇文章对此进行了介绍:Python web scraping牵涉到带有属性的HTML标签 但我无法对此网页执行类似的操作:http://www.expatistan.com/cost-of-living/

回答 3 投票 0

为什么我会收到“IndexError:列表索引超出范围”? (美汤)

我试图在这里抓取一个结构与我之前的问题非常相似的表格。我刚刚更改了属性名称,但出现索引超出范围错误。这是TR: 我正在尝试在这里抓取一张表格,其结构与我之前的问题非常相似。我刚刚更改了属性名称,但出现了 index out of range 错误。这是TR: <TR VALIGN="bottom"> <TD BGCOLOR=#cc6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">1</FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="left" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">Wachtell, Lipton</FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">1 </FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">9.1%</FONT></TD> <TD BGCOLOR=#FF9933 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">$3,385,000 </FONT></TD> </TR> 我正在尝试获取第一个ALIGN="left"和最后一个ALIGN="center"。但最后一行的索引给出了错误。这是我正在使用的代码: soup = BeautifulSoup(urllib.urlopen("http://www.law.com/special/professionals/amlaw/amlaw200/amlaw200_ppp.html")) rows = soup.findAll(name='tr',attrs={'valign':'bottom'}, limit=13) for row in rows: tds_left = row.findAll(name='td',attrs={'align':'left'}, limit=13) tds_center = row.findAll(name='td',attrs={'align':'center'}, limit=13) if tds_left: firm_name = tds_left[0].text if tds_center: # the following line gives an error if the index is different than 0 ppp = tds_center[0].text 谢谢! 更新 Traceback (most recent call last): File "C:\Program Files (x86)\Google\google_appengine\google\appengine\ext\webapp\_webapp25.py", line 701, in __call__ handler.get(*groups) File "C:\U\A\D\\toplawfirms.py", line 384, in get ppp = tds_center[2].text IndexError: list index out of range 更新 作为对agf评论的回应是print tds_center和for item in tds_center: print item? tds_center: [] tds_center: [] tds_center: [] tds_center: [ ] item: tds_center: [] item: tds_center: [Rank By Profits Per Partner, Rank By Revenue Per Lawyer, Change In Profits per Partner from 1998, Profits Per Partner] item: Rank By Profits Per Partner item: Rank By Revenue Per Lawyer item: Change In Profits per Partner from 1998 item: Profits Per Partner tds_center: [1, 1 , 9.1%, $3,385,000 ] item: 1 item: 1 item: 9.1% item: $3,385,000 tds_center: [2, 2 , 5.0%, $3,055,000 ] item: 2 item: 2 item: 5.0% item: $3,055,000 tds_center: [3, 4 , 2.9%, $2,110,000 ] item: 3 item: 4 item: 2.9% item: $2,110,000 tds_center: [4, 3 , 8.7%, $1,790,000 ] item: 4 item: 3 item: 8.7% item: $1,790,000 tds_center: [5, 9 , 6.9%, $1,710,000 ] item: 5 item: 9 item: 6.9% item: $1,710,000 tds_center: [6, 6 , 10.8%, $1,655,000 ] item: 6 item: 6 item: 10.8% item: $1,655,000 tds_center: [7, 5 , 5.1%, $1,610,000 ] item: 7 item: 5 item: 5.1% item: $1,610,000 我修改了以下代码中获取最后一个“中心”td 的方式: import urllib from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib.urlopen("http://www.law.com/special/professionals/amlaw/amlaw200/amlaw200_ppp.html")) rows = soup.findAll(name='tr',attrs={'valign':'bottom'}, limit=13) for row in rows: tds_left = row.findAll(name='td',attrs={'align':'left'}, limit=13) tds_center = row.findAll(name='td',attrs={'align':'center'}, limit=13) if tds_left: firm_name = tds_left[0].text print firm_name if tds_center: # get last td "center" ppp = tds_center[-1].text print ppp 并得到以下结果: Firm Profits PerPartner Wachtell, Lipton $3,385,000 Robins, Kaplan $3,055,000 Cravath $2,110,000 Sullivan &amp; Cromwell $1,790,000 Cahill Gordon $1,710,000 Simpson Thacher $1,655,000 Davis Polk $1,610,000 回溯与代码不对应。 回溯: ppp = tds_center[2].text 您的代码: ppp = tds_center[0].text 代码的结果输出有效,但看起来不是很有趣,John Keyes 有更有趣的输出,但具有 [-1] 值。 这取决于您的需求。

回答 2 投票 0

Windmill 未获取所有 html 内容

我正在尝试使用 python Windmill 框架从网页上抓取数据。但是,我在从页面获取 HTML 表格内容时遇到问题。该表是由 Javascript 生成的 - 因此...

回答 1 投票 0

如何去掉像 ' 这样的字符而不是撇号? [重复]

可能的重复: 在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 我正在尝试使用 Python 抓取网站。我导入并使用 urllib2、BeautifulSoup 和 re 模块。 回复...

回答 1 投票 0

beautifulSoup 屏幕抓取不正确嵌套的列表 <ul>s

我对 BeautifulSoup 非常陌生,在过去的三天里,我试图从 http://www.ucanews.com/diocesan-directory/html/ordinary-of-philippine-cagayandeoro 获取教堂列表-parishes.html。 ...

回答 1 投票 0

bs4 抓取无输出

我是一个初学者,希望使用 bs4 来抓取图像中突出显示的数字,但结果我一直收到一个空列表。 导入请求 从 bs4 导入 BeautifulSoup url =“https...

回答 1 投票 0

如何使用 Beautiful Soup 提取此 HTML 元素属性的值?

我正在开发一个小工具来抓取网页。我用的是美丽汤。我想从页面中获取类 ID。 HTML 代码看起来像这样:

回答 0 投票 0

在 Python 中抓取基于 Javascript 的网页

我正在用Python开发一个屏幕抓取工具。但是,当我查看网页源代码时,我注意到大部分数据都是通过 JavaScript 来的。 任何想法,如何抓取 javascript

回答 3 投票 0

将图像从一个站点抓取到另一个站点

我是新来的,总体来说对网络开发还很陌生。 我的背景是 3D 建模和设计,但我最近启动了一个项目,我认为该项目可能是 3D 社区的一个很好的资源。 ...

回答 2 投票 0

Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法

使用 BeautifulSoup 从少数网页(使用 URL 列表)中抓取文本的最简单方法是什么?有可能吗? 最好的, 乔治娜

回答 3 投票 0

提取 Google 搜索结果重定向

我读过几篇关于如何提取 Google 搜索结果 URL 的 stackoverflow 帖子,并使用 python、curl 和 beautifulsoup 编写了类似的实现。 我的问题是,我怎样才能

回答 1 投票 0

python BeautifulSoup解析表

我正在学习 python requests 和 BeautifulSoup。 作为练习,我选择编写一个快速的纽约停车罚单解析器。 我能够得到一个相当难看的 html 响应。 我需要抓住

回答 6 投票 0

为什么我的抓取工具无法获取 Google 地图上的所有数据?

我有一个谷歌地图抓取器。抓取工具应该向下滚动结果,直到没有任何内容可以滚动,抓取数据(名称、地址等)并将其保存到 Excel 中。 该程序可以完成一切

回答 1 投票 0

使用concurrent.futures优化Python Web Scraping脚本以减少执行时间

我目前正在使用 Python 编写一个网页抓取脚本,该脚本使用 urllib、BeautifulSoup 和 pandas 从网站的多个页面中提取表数据。该脚本旨在处理内容

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.