网页是一个动态页面 -
意味着数据由JavaScript加载。
将无法与动态页面一起使用。您必须使用
beautifulsoup
来刮擦此站点。,但是,如果您在Chrome DevTools的“网络”选项卡下看到,您可以看到数据正在从API加载。您可以直接从该API获取数据。这是
link
selenium
import requests
url = 'https://europepmc.org/api/get/articleApi?query=(EXT_ID:30980146%20AND%20SRC:med)&format=json&resultType=core'
r = requests.get(url)
x = r.json()
print(f"DOI: {x['resultList']['result'][0]['doi']}")
RAM
已经显示了如何从DOI: 10.1007/s00508-019-1485-6
中刮擦DOI数据,我还添加了代码示例以提取doi链接和摘要,并将所有内容组合在一起,包括从:doi,doi,doi url,Abstract.inter.
看了
europepmc.org
full输出: