beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

需要 Python 中的网络抓取 lambda 函数的解释

我正在用Python进行网页抓取,我发现了这个: 产品 = soup.find_all('li') 产品列表 = [] 对于产品中的产品: 名称 = 产品.h2.字符串 价格 = 产品.find('p', string=l...

回答 1 投票 0

使用 Python BeautifulSoup 进行网页抓取

我想通过使用Python BeautifulSoup从网站上进行网页抓取来收集数据,用于我的数据分析项目。 我想从网站收集的数据; 日期: 06.07.2027 舞台:伯格海恩,

回答 1 投票 0

想用Selenium刮擦但网页认为我是机器人

想用 Selenium 进行抓取,但网页(Cloudflare)认为我是一个机器人。 我尝试添加选项、无头、等待特定 ID 出现,但网页从未完全加载。 怎么...

回答 2 投票 0

Beautifulsoup:href 链接未定义

我想废弃一个网站,当我到达任何标签时,链接是“job/undefined”,我使用post请求从页面获取数据。 在此代码中使用 postdata 发布请求: 来自 BS4

回答 1 投票 0

尝试使用 python 抓取在线招聘网站时出现 403 错误

我正在尝试为我的 coursera 项目抓取在线求职网站。 我一直收到 403 错误,在网上搜索了它的含义后,我发现这意味着 web si...

回答 1 投票 0

Beautiful Soup - 获取所有文本,但保留链接 html?

我必须将大量极其混乱的 HTML 档案处理成 Markdown,其中充满了无关的表格、跨度和内联样式。 我正在尝试使用 Beautiful Soup 来完成这个任务,我的目标是

回答 4 投票 0

Python BeautifulSoup - 如何抓取<a><td>中值内的链接

我正在学习网络抓取,并尝试从以下链接中抓取数据。有没有办法让我也从每个 td 中抓取链接? 网站链接:http://eecs.qmul.ac.uk/postgrad...

回答 1 投票 0

在 Python 中使用 BeautifulSoup 抓取 HTML

我正在尝试抓取以下网站以获取特定日期的可用开球时间:https://mt-prospect-golf-club.book.teeitup.golf/?course=10277&date=2024-08-27。 理想情况下,我想...

回答 1 投票 0

在 cronjob 内废弃网页时响应提前结束

我创建了Cronjob来每24小时执行一次脚本,我注意到当代码在本地计算机上的cron进程期间自行编译时会发生此错误我没有注意到这个问题。 我...

回答 1 投票 0

如何在 BeautifulSoup.contents 中保留空格

我在网上找到的大多数示例都展示了如何删除空格 - 但就我而言,我需要保留它..我有 html =“我可以用一只手翻转整个东西 D#m...

回答 2 投票 0

如何在Python中使用BeautifulSoup抓取来获取aria-label

我的html中有大量的div类。每个 div 类都包含一个 h3 类,其中包含一个 div aria-label,我想在 python 文件中抓取其文本。我已经能够创建一个列表...

回答 1 投票 0

尝试用 Python 进行网页抓取

我正在尝试提取 URL 流,但被卡住了。我从中提取数据的 URL 重定向到一个页面,该页面具有该 URL,然后必须单击该 URL 才能转到该页面的 URL 我实际上...

回答 1 投票 0

尝试在Python中进行网页抓取

我正在尝试提取网址流,但卡住了。我提取数据的网址重定向到一个包含该网址的页面,然后必须单击该页面才能转到我实际上想要的页面网址...

回答 1 投票 0

导入bs4 ModuleNotFoundError:没有名为“bs4”的模块

我正在尝试创建一个网络脚本,但是当我运行它时,它给了我这个错误: 导入 bs4 ModuleNotFoundError:没有名为“bs4”的模块 当我转到我的项目解释器时,bs4 和 beautifulsoup4 是

回答 3 投票 0

Python:如何将 XML 文件解析为缺少子项的 DataFrame?

我正在尝试解析 SimpleXML 文件并转换为数据帧。我的 xml 中有大约 3000 个条目,并且一些条目中缺少我需要的子项属性之一。所以数据框...

回答 1 投票 0

使用 Python 从多个独特网站中抓取联系信息

我想从大约 1000-2000 个不同的餐厅网站上抓取联系信息。几乎所有的人在主页或某种“联系”页面上都有联系信息,但没有两个

回答 2 投票 0

在混乱的网站上使用 Beautiful Soup 进行 Python 网页抓取

我想从这个网站上抓取以下三个数据点:%verified、FAR 的数值和 POD 的数值。 我正在尝试在 BeautifulSoup 中执行此操作,但我不练习...

回答 3 投票 0

使用Python进行网页抓取,但值为空

我想从这个网站获取值:http://cdn.ime-co.ir/ with BeautifulSoup ,但是当我尝试导入表时值是空的。我认为禁用了 javascrip 或任何我不知道的东西。 普...

回答 1 投票 0

如何查询美国银行的营业时间?

嗨,我想知道如何使用 beautifulsoup 来获取美国银行的营业时间。 例如,如果网址是 (Shattuck_Ave_94704_BERKELEY_CA/bank_branch_locations/">http://locators.bankofamer...

回答 1 投票 0

美丽的汤检查标签中的标签

我正在使用 Beautiful Soup 4 来抓取页面。有一段我不想要的文本: 我正在使用 Beautiful Soup 4 来抓取页面。有一段文字我不想要: <p class="MsoNormal" style="text-align: center"><b> <span lang="EN-US" style="font-family: Arial; color: blue"> <font size="4">1 </font></span> <span lang="AR-SA" dir="RTL" style="font-family: Arial; color: blue"> <font size="4">&#1600;</font></span><span lang="EN-US" style="font-family: Arial; color: blue"><font size="4"> с&#1199;р&#1241; фати&#1211;&#1241;</font></span></b></p> 它的独特之处在于它有一个标签。我已经使用 findall() 来获取所有 标签。所以现在我有一个 for 循环,例如: for el in doc.findall('p'): if el.hasChildTag('b'): break; 不幸的是bs4没有“hasChildTag”功能 也应该可以使用CSS选择器。 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors soup.select("p b") for elem in soup.findAll('p'): if elem.findChildren('b'): continue #skip the elem with "b", and continue with the loop #do stuff with the elem

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.