beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

<code><span data-v-d3a5356a="" class="metadata--doi">DOI: <a data-v-d3a5356a="" id="article--doi--link-metadataSec" href="//doi.org/10.1007/s00508-019-1485-6">10.1007/s00508-019-1485-6</a>&nbsp;</span> </code>

如何提取字符串“ 10.1007/s00508-019-1485-6”? 网页是一个动态页面 - 意味着数据由JavaScript加载。将无法与动态页面一起使用。您必须使用beautifulsoup来刮擦此站点。 ,但是,如果您在Chrome DevTools的“网络”选项卡下看到,您可以看到数据正在从API加载。您可以直接从该API获取数据。这是link 如何从该API端点提取数据。 selenium import requests url = 'https://europepmc.org/api/get/articleApi?query=(EXT_ID:30980146%20AND%20SRC:med)&format=json&resultType=core' r = requests.get(url) x = r.json() print(f"DOI: {x['resultList']['result'][0]['doi']}") RAM已经显示了如何从DOI: 10.1007/s00508-019-1485-6 中刮擦DOI数据,我还添加了代码示例以提取doi链接和摘要,并将所有内容组合在一起,包括从:doi,doi,doi url,Abstract.inter.1 看了 europepmc.org full输出: ieeexplore.ieee.org 如果您正在寻找Google Scholar中的DOI论文,我有一个坏消息,'Scholarly'库不准确地提供论文doi,但一个好消息是,您可以使用额外的工具来提取doi论文。对于每个返回的出版物,这个Python脚本都试图通过Crossref的API匹配标题来找到DOI。 (请记住,Google Scholar并不总是显示DOI,因此此方法使用外部查找。 ieeexplore.ieee.org

回答 2 投票 0


我想使用Python从网站上进行网络刮擦,并仅使用Beautifutsoup,请求和JSON模块

我使用索引来提取我想要的特定脚本。 我选择索引[6]来隔离特定脚本。 我将变量分配给名称为“产品脚本”。

回答 0 投票 0

从数组下载多个文件,然后使用python3

#导入所需的库 - 制作HTTP请求 /查询DOM元素 导入请求 来自BS4的Beautifutsoup作为BS 导入Zipfile #向NGA站点提出请求,响应存储在R(dom)中 ...

回答 2 投票 0

顺便说一句,不要使用抽搐API。 <video>有什么方法可以使用请求和BeautifulSoup4刮擦链接? 我想刮擦实际包含剪辑的“ SRC”属性的标签。但是,问题是,每当我尝试加载页面并使用请求 + BeautifulSoup4来寻找

import time from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.firefox.options import Options def get_clip_link(link): try: url = link options = Options() options.add_argument('--headless') driver = webdriver.Firefox(options=options) driver.get(url) time.sleep(3) page = driver.page_source driver.quit() soup = BeautifulSoup(page, 'html.parser') videos = soup.find_all('video') for video in videos: src = video['src'] if src: return src else: return False except: return False

回答 0 投票 0

无法在Web刮擦时获得链接

我想在选择“ T20I”时使用Python进行Web刮擦。为此,我需要在请求和美丽小组中提出一个特定的链接。 每当我打开https://www.espncricinfo.com/cricke...

回答 2 投票 0


如何在美丽的小组中找到以前的兄弟姐妹<h1>-<h6>?

要找到div元素/变量的先前兄弟姐妹,这是一个 - 这起作用: <h1> 要找到以前的兄弟姐妹,它可以是heading = div.find_previous_sibling('h1') ,<h1>,<h2>,<h3>,<h4>或<h5>-这确实有效: <h6> 我们怎么能找到以前的兄弟姐妹,哪个是任何标题? 这是我找到的最好的方法,但是我很乐意听到任何更好的方法 - 也许无需使用Regex:heading = div.find_previous_sibling('h1, h2, h3, h4, h5, h6')

回答 1 投票 0

如何从印地语报纸AmarUjala

https://www.amarujala.com/india-news?src =mainMenu

回答 1 投票 0



如何在表中有隐藏数据的刮擦网站?

我正在使用以下Python代码,这给了我一个数据框架,但没有其他信息

回答 1 投票 0

TypeError:__init __()有一个意外的关键字参数“代理” BS4刮擦

#导入 从Urllib.Request Import ProxyDigeStauthHandler,请求,urlopen 来自BS4进口美丽的小组 来自bs4. elem emport incort strainer 导入请求 #preinit 代理= {“ https”:...

回答 2 投票 0


如何创建一个美丽的群体变量,该变量将允许find_all识别htmltable

我正在尝试根据五个网站页面创建一个单一的内容变量。我正在使用的代码是: soup_a = [] 对于我的范围(1,6): url_a = f'https://www.mascotdb.com/native-american-high-...

回答 1 投票 0

为什么我的HTML解析器未输出想要的数字

我的编程老师在Python中使我们的计划成为计算器,以计算L/100km的燃料完成,我决定走得更远,甚至可以计算出每100公里的价格,但我试图使用BeautifutSoup4(BS44)(BS4)(BS4)(BS4) )因此,它为我找到了汽油价格,如果它在网站上更改,我发现了该号码的CSS选择器,但是我不确定它是错误的还是解析器中的错误,因为当我运行它时,它会返回”初始数字:无”而不是CSS选择器指定的数字。这是我解析器的代码:

回答 1 投票 0

当重复班级名称时(beautifutsoup)

我正在尝试从下面的HTML汤中提取两个弦 特别是我要提取“ FromSoftware,Inc。”。和“ Bandai Namco Entertainment”出现在出版商标签下

回答 1 投票 0


回答 1 投票 0

我如何在此URL的“ Informationsdétaillées”部分中删除数据:https://gallica.bnf.fr/ark:/12148/cb42768809f/date? hi的家伙,我是新的,wanding着网络。 我正在尝试在此网页的“信息détaillées”部分(https://gallica.bnf.fr/ark/ark :/12148/cb42768809f/d...

这是一个测试URL。 我得到了与此网站API要求的500个URL列表。我打算将我的Python函数应用于此列表的所有URL。 请问有任何建议可以帮助我从此网页中提取所需的信息? 太多!

回答 0 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.