Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
我已经这样做好几天了,我正在尝试抓取这个网站:“https://careers.ispor.org/jobseeker/search/results/” 我已经涵盖了从提取
我有一个 UniProt ID 列表,想使用 BeautifulSoup 废弃包含结构信息的表。我使用的网址如下:https://www.uniprot.org/uniprot/P03496,带有
我需要从 https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx?PageLang=En 提取数据。我需要 4 列 -“姓名”、“性别”、“职称”、“医院名称”、“联系方式”。 ”
如何使用 beautiful soup 从 HTML 中提取带有 ::marker 的标签
我正在尝试使用 BeautifulSoup 查找具有 :: 标记的 li 元素,如下所示。 我尝试使用 cssutils 但不成功(也许我使用错误) 伪代码: lis = soup_obj.find_...
我正在尝试抓取这个网站并尝试获得评论,但我遇到了一个问题, 该页面仅加载 50 条评论。 要加载更多内容,您必须单击“显示更多评论”,但我不...
我正在这个网站上抓取产品评论” https://www.lazada.com.my/products/xiaomi-mi-a1-4gb-ram-32gb-rom-i253761547-s336359472.html?spm=a2o4k.searchlistcategory.list.64.71546883QBZiNT&
使用 BeautifulSoup 提取两个 h1 标签之间的数据
美汤:提取两个标签之间的所有内容 我正在使用 BeautifulSoup 提取两个特定 HTML 标签之间的内容。这些标签没有任何特定的属性或 ID,而且我...
我正在尝试从 HTML 格式的 10K 归档文件中抓取地址:https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm 它有多个 div 类,我想抓取...
如何修复 python 中的“TypeError: 'NoneType' object is not callable”
当我尝试运行这个简单的 python 网页抓取程序(如下所示)时,我收到错误“TypeError:‘NoneType’对象不可调用”。我该如何解决这个问题? 从 bs4 导入美丽...
使用 BeautifulSoup 抓取第一个表时出现 HTTP 错误 404,但第二个表工作正常
我正在编写一个 Python 脚本,使用 BeautifulSoup 从 Investing.com 抓取历史 CDS 数据。目标是从页面上的特定表中提取数据并将其编译成 DataFrame。 哈...
使用 Selenium 在 Python 中进行网页抓取自动化的问题
我的 ETL 流程遇到问题。让我解释一下我的问题,我有这段代码: 导入时间 从硒导入网络驱动程序 从 selenium.webdriver.common.by 导入 将 pandas 导入为 pd 导入
selenium 的驱动程序在 python 中获取错误页面
我正在努力为足球锦标赛争取一定的赔率。为此,我编写了一段代码,它首先生成我想要的确切链接,然后加载相应的页面。问题是,...
在尝试使用 beautiful soup 抓取数据时,我不断收到“远程主机强制关闭现有连接”的消息。 (Python 3.8.5)
我正在尝试从 zacks.com 抓取数据,但在程序运行之前,我收到“ConnectionResetError:[WinError 10054]现有连接被远程主机强制关闭。&qu...
使用firefox selenium抓取无限滚动的页面,导致错误,可能是由于数据太多
我正在尝试在聚会上使用无限滚动来抓取此页面以获取过去事件的列表。我想要获取事件列表,包括名称、日期和 URL(大部分只是名称,其他 2 个是可选的)。
现在我正在这个网站上做刮评产品 https://www.lazada.com.my/products/xiaomi-mi-a1-4gb-ram-32gb-rom-i253761547-s336359472.html?spm=a2o4k.searchlistcategory.list.64.71546883QBZ...
漂亮的汤 - 想要比较 XML 中每个父元素的特定子元素的长度
我有一个庞大的 XML 文档,我想解析它,对于每个特定元素,我想检查所有子元素的电子邮件地址,如果找到一个,则计算长度。 XML 做...
如何在 beautifulsoup 中获取文本作为 .innerText 而不是 JS 中的 .textContent
我有一个 HTML 文件,其中包含 p 标记内的文本,如下所示: Lorem ipsum dolor sat amet, consectetur adipiscing elit。 Maecenas sed mi lacu... 我有一个 HTML 文件,其中包含 p 标记内的文本,如下所示: <body> <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat</p> </body> 使用 Python 和 BeautifulSoup 我尝试获取 p 标签中的文本,例如: with open("foo.html", 'r', encoding='utf-8') as f: soup = BeautifulSoup(f.read(), 'lxml') p = soup.p print(p.text) 结果: 'Lorem ipsum dolor sit amet, \n\t\tconsectetur adipiscing elit. \n\t\tMaecenas sed mi lacus. \n\t\tVivamus luctus vehicula lacus, \n\t\tut malesuada justo posuere et. \n\t\tDonec ut diam volutpat' 问题是我将结果与 并出现在原始文件中(如 JS 中的 .textContent)。我需要一个类似于 JS 中的 .innerText 的解决方案,它返回用户在浏览器中看到的内容。 我尝试使用p.text.replace("\n", " ").replace("\t", "")但是对于更复杂的事情,比如标签中的标签,它根本不起作用(比如不必要的空格)。 有人知道如何做到这一点吗?预先感谢! 如果我理解正确的话,您可以使用正则表达式来更改文本。考虑这个例子: from bs4 import BeautifulSoup html_text = """\ <body> <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. <span>This is inner span.</span> Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat</p> </body>""" soup = BeautifulSoup(html_text, "html.parser") print(soup.p.text) 打印: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat 你可以这样做: import re print(re.sub(r"\s{2,}", " ", soup.p.text)) 这会响起: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat
我正在用Python进行网页抓取,我发现了这个: 产品 = soup.find_all('li') 产品列表 = [] 对于产品中的产品: 名称 = 产品.h2.字符串 价格 = 产品.find('p', string=l...
使用 Python BeautifulSoup 进行网页抓取
我想通过使用Python BeautifulSoup从网站上进行网页抓取来收集数据,用于我的数据分析项目。 我想从网站收集的数据; 日期: 06.07.2027 舞台:伯格海恩,
想用 Selenium 进行抓取,但网页(Cloudflare)认为我是一个机器人。 我尝试添加选项、无头、等待特定 ID 出现,但网页从未完全加载。 怎么...