beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

selenium 的驱动程序在 python 中获取错误页面

我正在努力为足球锦标赛争取一定的赔率。为此，我编写了一段代码，它首先生成我想要的确切链接，然后加载相应的页面。问题是，...

python selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

在尝试使用 beautiful soup 抓取数据时，我不断收到“远程主机强制关闭现有连接”的消息。（Python 3.8.5）

我正在尝试从 zacks.com 抓取数据，但在程序运行之前，我收到“ConnectionResetError：[WinError 10054]现有连接被远程主机强制关闭。&qu...

python beautifulsoup

回答 1 投票 0

使用firefox selenium抓取无限滚动的页面，导致错误，可能是由于数据太多

我正在尝试在聚会上使用无限滚动来抓取此页面以获取过去事件的列表。我想要获取事件列表，包括名称、日期和 URL（大部分只是名称，其他 2 个是可选的）。

python selenium-webdriver beautifulsoup

回答 1 投票 0

如何使用Python抓取所有评论产品

现在我正在这个网站上做刮评产品 https://www.lazada.com.my/products/xiaomi-mi-a1-4gb-ram-32gb-rom-i253761547-s336359472.html?spm=a2o4k.searchlistcategory.list.64.71546883QBZ...

python selenium web-scraping beautifulsoup

回答 3 投票 0

漂亮的汤 - 想要比较 XML 中每个父元素的特定子元素的长度

我有一个庞大的 XML 文档，我想解析它，对于每个特定元素，我想检查所有子元素的电子邮件地址，如果找到一个，则计算长度。 XML 做...

python xml beautifulsoup

回答 1 投票 0

如何在 beautifulsoup 中获取文本作为 .innerText 而不是 JS 中的 .textContent

我有一个 HTML 文件，其中包含 p 标记内的文本，如下所示： Lorem ipsum dolor sat amet， consectetur adipiscing elit。 Maecenas sed mi lacu... 我有一个 HTML 文件，其中包含 p 标记内的文本，如下所示： <body> Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat </body> 使用 Python 和 BeautifulSoup 我尝试获取 p 标签中的文本，例如： with open("foo.html", 'r', encoding='utf-8') as f: soup = BeautifulSoup(f.read(), 'lxml') p = soup.p print(p.text) 结果： 'Lorem ipsum dolor sit amet, \n\t\tconsectetur adipiscing elit. \n\t\tMaecenas sed mi lacus. \n\t\tVivamus luctus vehicula lacus, \n\t\tut malesuada justo posuere et. \n\t\tDonec ut diam volutpat' 问题是我将结果与并出现在原始文件中（如 JS 中的 .textContent）。我需要一个类似于 JS 中的 .innerText 的解决方案，它返回用户在浏览器中看到的内容。我尝试使用p.text.replace("\n", " ").replace("\t", "")但是对于更复杂的事情，比如标签中的标签，它根本不起作用（比如不必要的空格）。有人知道如何做到这一点吗？预先感谢！如果我理解正确的话，您可以使用正则表达式来更改文本。考虑这个例子： from bs4 import BeautifulSoup html_text = """\ <body> Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat </body>""" soup = BeautifulSoup(html_text, "html.parser") print(soup.p.text) 打印： Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat 你可以这样做： import re print(re.sub(r"\s{2,}", " ", soup.p.text)) 这会响起： Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat

python html python-3.x web-scraping beautifulsoup

回答 1 投票 0

需要 Python 中的网络抓取 lambda 函数的解释

我正在用Python进行网页抓取，我发现了这个：产品 = soup.find_all('li') 产品列表 = [] 对于产品中的产品：名称 = 产品.h2.字符串价格 = 产品.find('p', string=l...

python web-scraping beautifulsoup lambda

回答 1 投票 0

使用 Python BeautifulSoup 进行网页抓取

我想通过使用Python BeautifulSoup从网站上进行网页抓取来收集数据，用于我的数据分析项目。我想从网站收集的数据；日期: 06.07.2027 舞台：伯格海恩，

python html web-scraping beautifulsoup

回答 1 投票 0

想用Selenium刮擦但网页认为我是机器人

想用 Selenium 进行抓取，但网页（Cloudflare）认为我是一个机器人。我尝试添加选项、无头、等待特定 ID 出现，但网页从未完全加载。怎么...