基于 Thesaurus.com 的查询术语进行网页抓取 [已关闭]

问题描述 投票:0回答:1

当用户输入任何单词时,我试图从 www.thesaurus.com 中抓取所有同义词(见图)。

我已经成功获取了“名词”和“含义”等信息,但是当涉及到尝试获取同义词时,我遇到了一个问题,因为

的每个“值”
BeautifulSoup .find_all('a', attrs={'href':'**my problem**'})
自从

href = "/browse/**each different synonym**"

 以来,
将会有所不同。

我的目的是收集图片中所有突出显示的单词,例如“能力”和“容量”等。search term: power

检查html代码

inspect html code

python web-scraping beautifulsoup
1个回答
0
投票

通过CSS选择器更容易

.select()
,见下文

import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.thesaurus.com/browse/power")
soup = BeautifulSoup(response.content, 'html.parser')

# select only first '<section class="synonyms-container....'
synonyms = soup.select('.MainContentContainer > section > .synonyms-container a')
print 'synonyms for: Power'
for synonym in synonyms:
    print synonym.text
    #print synonym.get('href')
© www.soinside.com 2019 - 2024. All rights reserved.