Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
我正在尝试抓取此网站的内容:https://public.era.nih.gov/pubroster/roster.era?CID=102353,我可以针对以 ANANDASABAPATHY 开头的名称执行此操作,这些名称是包含
我尝试了几种适用于其他网站但不适用于此网址的方法。 https://www.wunderground.com/hourly/es/barcelona/IBARCE215/date/2022-07-25 日期(例如2022-07-25)应该在未来...
由于分页问题,无法使用 python al beautifulsoup 在 tripadvisor 中获取所有结果
我正在尝试获取餐厅的链接,但我只能获取前 30 家,而无法获取所有其他餐厅。 马德里地区的餐厅有几百家,分页每页只显示30家,以下...
我正在尝试抓取此页面中包含的信息:https://web.archive.org/web/20190718200413/https://public.era.nih.gov/pubroster/jsp/preRosIndex.jsp?CID =102353&议程=365050 基础...
我正在尝试抓取谷歌图像。当 beautiful soup 提取“src”时,它会输出链接 数据:图像/gif;base64,R0lGODlhAQABAIAAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw== 这不是真实的...
Python 上的 BeautifulSoup 问题 - 属性错误
我只是想做一个电报机器人,它会向我发送有关 NFT 项目底价的更新信息。我尝试使用 BeautifulSoup 来刮底价,代码如下: 来自 urllib.req...
如何使用 BeautifulSoup 从属性中抓取 eBay 列表 ID?
我正在尝试编辑代码以抓取多个列表的 eBay 列表 ID。现在,它会删除列表标题和价格。我不知道如何从...
我正在抓取产品信息。但我刮掉了它的价格,它并没有给我适当的输出。没有错误,但不是所需的输出。 而且在查找
从requests_html导入HTMLSession 从 bs4 导入 BeautifulSoup url = 'https://kephiso.webuntis.com/WebUntis/monitor?school=Kurt-Schwitters-Schule&monitorType=subst&format=Klassen' 瑟...
在python中使用BeautifulSoup从url的源代码中提取特定部分下的文本
我是Python的初学者,对HTML没有任何经验。我刚刚看了一个关于网页抓取的 YouTube 视频 (https://www.youtube.com/watch?v=kEItYHtqQUg&ab_channel=edureka%21) 并得到了
使用Requests bs4 Python3.8从长元素中抓取文本
我在Ubuntu 20.04上使用Python3.8.5。我怎样才能将下面显示的这个 html 和在这里找到的内容抓取到 Pandas DataFrame 中。 这是我当前的代码: 导入路径库 导入系统 导入lxml 导入熊猫...
作为一个项目,我正在编写一个网站,其中包含游戏中某些怪物的统计数据,问题是,当我将数据附加到列表中时,它会以非常长的单个 l 的形式打印...
如何打印“2020 年 2 月 8 日星期六 07:46:40 PM CDT”? 我用谷歌搜索了很多并且尝试了很多次。有人可以帮助我吗?
我正在尝试在基本表中抓取 finviz(https://finviz.com/quote.ashx?t=aapl) 的市值,但我一生都无法找到具有美丽的表或类汤。看来...
我是一名初学者,第一次尝试使用这些工具在 Jupyter Notebook 中抓取网站。 我的大部分代码都是基于示例,我不能声称我有深刻的理解...... 我正在努力...
我有以下网页 我有以下网页 </div><a href="https://www.emag.ro/laptop-lenovo-thinkbook-15-iil-cu-procesor-intel-core-i7-1065g7-pana-la-3-90-ghz-15-6-full-hd-16gb-512gb-ssd-intel-iris-plus-graphics-free-dos-mineral-grey-20sm003jrm/pd/DKBK1TMBM/#reviews-section" rel="nofollow" class="star-rating-container js-product-url" data-zone="reviews"><div class="star-rating star-rating-read rated-4.02 star-rating-sm "> <div class="star-rating-inner " style="width: 100%"></div> </div><div class="star-rating-text "> 我想提取该产品的评级。 对于本产品,评级在此处定义。 <div class="star-rating star-rating-read rated-4.02 star-rating-sm "> 我无法提取4.02。 我的代码看起来像: rating = container.find_all(class_="star-rating star-rating-read rated")[0].text 我知道上面的代码不行,我能够提取产品的价格和名称,但无法提取评级:( 这是一个您可以尝试的解决方案, import re # regex extract the decimal digits from string extract_ = re.compile(r"\d+.\d+") for div in container.find_all("div", attrs={"class": 'star-rating'}): for attr in div.attrs['class']: ratings_ = extract_.search(attr) if ratings_: print(ratings_.group()) # 4.02 尝试这样的事情: rating = str(container.find_all(class_="star-rating")[0]) rindex = rating.index("rated") print(rating[rindex+6:rindex+10])
类型错误:描述符“split”需要“str”对象,但收到“bytes”
我正在尝试使用 Github 上提供的 python 脚本从 ESPN Cricinfo 中抓取数据。代码如下。 导入 urllib.request 作为 ur 导入 csv 导入系统 导入时间 导入操作系统 导入
我有 500 个指数的列表。我试图为每个索引提取相应的公司名称。我对每个项目使用一个简单的请求: url = 'https://www.nasdaq.com/markey-activity/
从 Dailyfx.com 抓取/解析外汇 EurUsd 时,为什么 txt 文件中的值消失了?
我正在尝试解析来自 Dailyfx.com 的外汇 EurUsd 值。我可以在那里看到我想要的值,但是当我抓取/解析它时,我在 txt 文件中得到了值“--”。 这是在 dailyfx.com 上: d...
任何人都可以帮助我使用 beautifulsoup 将风味和品牌详细信息作为关键值对。我是新来的: 期望的输出是 口味 - 青苹果 品牌-Carabau html 看起来像...