beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

如何提取字符串“ 10.1007/s00508-019-1485-6”？网页是一个动态页面 - 意味着数据由JavaScript加载。将无法与动态页面一起使用。您必须使用beautifulsoup来刮擦此站点。，但是，如果您在Chrome DevTools的“网络”选项卡下看到，您可以看到数据正在从API加载。您可以直接从该API获取数据。这是link 如何从该API端点提取数据。 selenium import requests url = 'https://europepmc.org/api/get/articleApi?query=(EXT_ID:30980146%20AND%20SRC:med)&format=json&resultType=core' r = requests.get(url) x = r.json() print(f"DOI: {x['resultList']['result'][0]['doi']}") RAM已经显示了如何从DOI: 10.1007/s00508-019-1485-6 中刮擦DOI数据，我还添加了代码示例以提取doi链接和摘要，并将所有内容组合在一起，包括从：doi，doi，doi url，Abstract.inter.1 看了 europepmc.org full输出： ieeexplore.ieee.org 如果您正在寻找Google Scholar中的DOI论文，我有一个坏消息，'Scholarly'库不准确地提供论文doi，但一个好消息是，您可以使用额外的工具来提取doi论文。对于每个返回的出版物，这个Python脚本都试图通过Crossref的API匹配标题来找到DOI。（请记住，Google Scholar并不总是显示DOI，因此此方法使用外部查找。 ieeexplore.ieee.org

python beautifulsoup

回答 2 投票 0

使用Beautifutsoup迭代XML以拉动特定标签并将存储在变量中

BeautifulSoup4

python xml variables loops beautifulsoup

回答 1 投票 0

我想使用Python从网站上进行网络刮擦，并仅使用Beautifutsoup，请求和JSON模块

我使用索引来提取我想要的特定脚本。我选择索引[6]来隔离特定脚本。我将变量分配给名称为“产品脚本”。

python web-scraping beautifulsoup

回答 0 投票 0

从数组下载多个文件，然后使用python3

＃导入所需的库 - 制作HTTP请求 /查询DOM元素导入请求来自BS4的Beautifutsoup作为BS 导入Zipfile ＃向NGA站点提出请求，响应存储在R（dom）中 ...

python python-3.x web-scraping beautifulsoup python-requests

回答 2 投票 0

顺便说一句，不要使用抽搐API。 <video>有什么方法可以使用请求和BeautifulSoup4刮擦链接？我想刮擦实际包含剪辑的“ SRC”属性的标签。但是，问题是，每当我尝试加载页面并使用请求 + BeautifulSoup4来寻找

import time from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.firefox.options import Options def get_clip_link(link): try: url = link options = Options() options.add_argument('--headless') driver = webdriver.Firefox(options=options) driver.get(url) time.sleep(3) page = driver.page_source driver.quit() soup = BeautifulSoup(page, 'html.parser') videos = soup.find_all('video') for video in videos: src = video['src'] if src: return src else: return False except: return False

python python-3.x selenium beautifulsoup python-requests

回答 0 投票 0

无法在Web刮擦时获得链接

我想在选择“ T20I”时使用Python进行Web刮擦。为此，我需要在请求和美丽小组中提出一个特定的链接。每当我打开https://www.espncricinfo.com/cricke...

python web-scraping beautifulsoup python-requests

回答 2 投票 0

在Visual Studio上安装美丽的汤4 我正在尝试将美丽的汤4安装到我的计算机上。尝试了命令提示，但我想我缺少这条路。但是我也有Visual Studio，所以我认为我会通过VI下载它...

python visual-studio-code beautifulsoup

回答 0 投票 0

如何在美丽的小组中找到以前的兄弟姐妹<h1>-<h6>？

要找到div元素/变量的先前兄弟姐妹，这是一个 - 这起作用： <h1> 要找到以前的兄弟姐妹，它可以是heading = div.find_previous_sibling('h1') ，<h1>，<h2>，<h3>，<h4>或<h5>-这确实有效： <h6> 我们怎么能找到以前的兄弟姐妹，哪个是任何标题？这是我找到的最好的方法，但是我很乐意听到任何更好的方法 - 也许无需使用Regex：heading = div.find_previous_sibling('h1, h2, h3, h4, h5, h6')

beautifulsoup

回答 1 投票 0

如何从印地语报纸AmarUjala

https：//www.amarujala.com/india-news？src =mainMenu

javascript python web-scraping beautifulsoup python-requests

回答 1 投票 0

形成网络刮擦数据BS4

python pandas web-scraping beautifulsoup

回答 1 投票 0

<code>https://untappd.com/v/beer-culture/893427</code>

soup

python web-scraping beautifulsoup python-requests

回答 2 投票 0

如何在表中有隐藏数据的刮擦网站？

我正在使用以下Python代码，这给了我一个数据框架，但没有其他信息

python beautifulsoup

回答 1 投票 0

TypeError：__init __（）有一个意外的关键字参数“代理” BS4刮擦

＃导入从Urllib.Request Import ProxyDigeStauthHandler，请求，urlopen 来自BS4进口美丽的小组来自bs4. elem emport incort strainer 导入请求 #preinit 代理= {“ https”：...

python web-scraping beautifulsoup proxy

回答 2 投票 0

我有这个

python-3.x beautifulsoup

回答 5 投票 0

如何创建一个美丽的群体变量，该变量将允许find_all识别htmltable

我正在尝试根据五个网站页面创建一个单一的内容变量。我正在使用的代码是： soup_a = [] 对于我的范围（1,6）： url_a = f'https：//www.mascotdb.com/native-american-high-...

python beautifulsoup

回答 1 投票 0

为什么我的HTML解析器未输出想要的数字

我的编程老师在Python中使我们的计划成为计算器，以计算L/100km的燃料完成，我决定走得更远，甚至可以计算出每100公里的价格，但我试图使用BeautifutSoup4（BS44）（BS4）（BS4）（BS4））因此，它为我找到了汽油价格，如果它在网站上更改，我发现了该号码的CSS选择器，但是我不确定它是错误的还是解析器中的错误，因为当我运行它时，它会返回”初始数字：无”而不是CSS选择器指定的数字。这是我解析器的代码：

python beautifulsoup css-selectors html-parsing

回答 1 投票 0

当重复班级名称时（beautifutsoup）

我正在尝试从下面的HTML汤中提取两个弦特别是我要提取“ FromSoftware，Inc。”。和“ Bandai Namco Entertainment”出现在出版商标签下

python web-scraping beautifulsoup steam

回答 1 投票 0

为什么Beautifulsoup在此网站上未检测到“增长估算”表？我试图从下面的URL上覆盖数据，以使用美丽的汤和请求从“增长估算”表中获取数据，但似乎无法拾取表。但是...

Https：//finance.yahoo.com/quote/aapl/analysis？p =aapl

python web-scraping beautifulsoup python-requests

回答 1 投票 0

从多个URLS

python beautifulsoup