beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

如何获取存储的播放列表网址此处：https://www.youtube.com/watch?v=VpTRlS7EO6E&list=RDOIhVs0FQ8xc&index=5 与bs4？使用从 bs4 导入 BeautifulSoup as bs 导入请求...

python url beautifulsoup youtube

回答 4 投票 0

Python (BeautifulSoup) 只有 1 个结果

我知道有与此类似的问题已得到解答，我已经尝试申请但没有解决我的问题。我的问题是在这个网站上：http://books.toscrape.com/catalogue/pa...

python beautifulsoup

回答 3 投票 0

如何使用熊猫和漂亮的汤从棒球参考中刮出桌子？

我正在尝试抓取此网址上的投球统计信息，然后将数据帧保存到 csv 文件。 https://www.baseball-reference.com/boxes/ARI/ARI202204070.shtml 我当前的代码如下（Python 3.9...

python pandas web-scraping beautifulsoup

回答 1 投票 0

BeautifulSoup 美化改变内容，而不仅仅是布局

我有一个 SVG 图像，它是一个 XML 文件。如果我用 BeautifulSoup 解析它并未经修改地输出它，那么当我使用 prettify 时它会修改它。图像呈现不同的效果。文字向左移动...

python xml svg beautifulsoup

回答 1 投票 0

如何使用 Python Playwright（或替代方案）将网站中的数据抓取到 CSV 文件中，同时避免访问错误并提高速度？

我正在尝试使用 Python 和 Playwright 从该网站抓取数据，但遇到了一些问题。浏览器以非headless模式运行，进程非常慢。当我尝试其他

python selenium-webdriver beautifulsoup python-requests playwright

回答 1 投票 0

为什么从 Instagram 抓取关注者计数失败？

我正在尝试抓取用户名数组的关注者数量。我正在使用美丽汤。我正在使用的代码如下导入请求从 bs4 导入 BeautifulSoup def instagram_follo...

python web-scraping beautifulsoup python-requests instagram

回答 4 投票 0

Instagram 粉丝数抓取 python

我正在尝试抓取用户名数组的关注者数量。我正在使用美丽汤。我正在使用的代码如下导入请求从 bs4 导入 BeautifulSoup def instagram_follo...

python web-scraping beautifulsoup instagram

回答 2 投票 0

使用 BeautifulSoup 从 <h1> 标签中提取文本时出现问题

我正在抓取页面https://www.eloatings.net/1999，并且我的代码在提取元素方面工作正常，但是当我尝试仅打印标记内的文本时，它没有显示内容。 ... 我正在抓取页面https://www.eloatings.net/1999，我的代码在提取元素方面工作正常，但是当我尝试仅打印 <h1> 标签内的文本时，它没有显示内容。除了这部分之外，整个代码都有效。这是我的代码： import requests from bs4 import BeautifulSoup # Send a GET request to the page url = "https://www.eloratings.net/1999" response = requests.get(url) # Parse the content with BeautifulSoup soup = BeautifulSoup(response.content, 'html.parser') # Find the main div containing the h1 tag main_div = soup.find('div', id='main') # Check if main_div is found if main_div: h1_tag = main_div.find('h1') if h1_tag: # Print the complete content of the h1 tag print(f"Vollständiger Inhalt des h1-Tags: {h1_tag.get_text()}") else: print("Kein h1-Tag gefunden.") else: print("Kein div mit der ID 'main' gefunden.") 虽然代码有效（除了<h1>中的文本），但以下提取文本的代码片段不起作用： main_div = soup.find('div', id='main') if main_div: h1_tag = main_div.find('h1') if h1_tag: print(f"Vollständiger Inhalt des h1-Tags: {h1_tag.get_text()}") 有谁知道为什么文字丢失了？另外，如果您能提供有关提取和保存整个表格的帮助，我们将不胜感激！这里的主要问题是内容是由 JavaScript 动态加载的，并且不存在于由 requests 使用的服务器的静态响应中。您可以使用 selenium 来模仿浏览器行为并渲染上下文： from selenium import webdriver from bs4 import BeautifulSoup import time driver = webdriver.Chrome() # call the episodes of season driver.get('https://www.eloratings.net/1999') time.sleep(2) soup = BeautifulSoup(driver.page_source) print(soup.h1.get_text())

python html web-scraping beautifulsoup

回答 1 投票 0

为什么通过特定类查找元素会导致空结果？

我正在使用 Python、Requests、bs4 库开发一个网络抓取项目。我试图抓取 IPL 的网页，我想从该页面获取每个赛季每场比赛的所有详细信息。

python web-scraping beautifulsoup python-requests

回答 2 投票 0

Python：BeautifulSoup 抓取产量数据

我正在尝试从网站上抓取多个国家和多个期限的收益率表。到目前为止我只得到空表：虽然它应该看起来像：到目前为止我一直在做以下...

python pandas web-scraping beautifulsoup

回答 1 投票 0

如何通过 IMDB 分页容器加载系列的附加剧集？

我正在编写这段代码：导入请求从 bs4 导入 BeautifulSoup url = 'https://www.imdb.com/title/tt5189554/episodes/' 标题= { “连接”：“保持活动”， ”

python beautifulsoup python-requests pagination

回答 3 投票 0

检测Tag是否是块级元素？

如何检查 BeautifulSoup 标签是否是块级元素（例如、、），还是像、这样的“短语内容”元素？基本上我想要... 如何检查 BeautifulSoup 标签是否是块级元素（例如 <p>、<div>、<h2>）或“短语内容”元素（如 <span>、<strong>）？基本上我想要一个函数，根据 HTML 规范，对于 <p> 标签内允许的任何标签返回 True，对于 <p> 标签内不允许的任何标签返回 false。我问这个问题是因为我不想自己对允许的标签列表进行硬编码，但我无法从 bs4 或 html 文档中找到有关判断标签是否在表达内容的任何内容。 BeautifulSoup 已经知道哪些元素可以在 <p> 内使用，哪些元素不允许： >>> BeautifulSoup('<p><h2>') <html><body><p></p><h2></h2></body></html> >>> BeautifulSoup('<p><em>') <html><body><p><em></em></p></body></html> 如果Python的html模块能给我答案的话，我也很乐意使用。我不确定美丽汤知道你在说什么。它更像是使用某种引擎来解析和修复 HTML。有这个方法soup.get_text() 它返回 HTML 中的所有文本。也许您正在寻找这个。如果没有，那么它将有助于理解为什么你需要这样的功能。

python html beautifulsoup

回答 1 投票 0

BeautifulSoup 和 Amazon.co.uk

我正在尝试解析亚马逊来编制价格清单，作为与统计相关的更大项目的一部分。然而，我很困惑。我想知道是否有人可以查看我的代码并告诉我我在哪里......

python beautifulsoup mechanize

回答 2 投票 0

无法找到网页的 div 标签、类值

我正在使用 Python、Requests、bs4 库开发一个网络抓取项目。我试图抓取 IPL 的网页，我想从该页面获取每个赛季每场比赛的所有详细信息。

web-scraping beautifulsoup python-requests python-requests-html

回答 1 投票 0

我正在尝试从 danbooru 抓取图像，但使用 BeautifulSoup 时出现 SSLEOFError 违反协议 1002 错误

我正在尝试为 danbooru 图像制作图像刮刀，我使用网络驱动程序“selenium”制作了一个版本，它工作得很好，但对于大型数据集来说需要很多时间。因此我想使用 bs4 '