beautifulSoup soup.select（）对于CSS选择器返回空

Question

我正在尝试解析该网站的一些链接https://news.ycombinator.com/

我想选择一个特定的表

document.querySelector("#hnmain > tbody > tr:nth-child(3) > td > table")

我知道bs4的css选择器限制。但是问题是我什至不能选择像#hnmain > tbody和soup.select('#hnmain > tbody')一样简单的方法，因为它返回empty

使用下面的代码，我无法解析tbody，而我使用js时（截图）

from bs4 import BeautifulSoup
import requests
print("-"*100)
print("Hackernews parser")
print("-"*100)
url="https://news.ycombinator.com/"
res=requests.get(url)
html=res.content
soup=BeautifulSoup(html)
table=soup.select('#hnmain > tbody')
print(table)

OUT：

soup=BeautifulSoup(html)
[]

Answer 1

而不是直接浏览正文和表格，为什么不直接浏览链接？我对此进行了测试，效果很好：

links=soup.select('a',{'class':'storylink'})

如果需要表，由于每页只有一个，因此您也不需要遍历其他元素-您可以直接访问它。

table = soup.select('table')

Answer 2

我没有从beautifulsoup或curl脚本中获取html标签tbody。这意味着

soup.select('tbody')

返回空列表。这是相同原因，您将获得一个空列表。

仅提取您要查找的链接就做

soup.select("a.storylink")

它将从站点获得所需的链接。

Answer 3

数据以3行为一组排列，其中第三行是用于间隔的空行。循环最上面的行，并使用next_sibling在每个点上获取关联的第二行。 bs4 4.7.1 +

from bs4 import BeautifulSoup as bs
import requests

r = requests.get('https://news.ycombinator.com/')
soup = bs(r.content, 'lxml')
top_rows = soup.select('.athing')

for row in top_rows:
    title = row.select_one('.storylink')
    print(title.text)
    print(title['href'])
    print('https://news.ycombinator.com/' + row.select_one('.sitebit a')['href'])
    next_row = row.next_sibling
    print(next_row.select_one('.score').text)
    print(next_row.select_one('.hnuser').text)
    print(next_row.select_one('.age a').text)
    print(next_row.select_one('a:nth-child(6)').text)
    print(100*'-')

beautifulSoup soup.select（）对于CSS选择器返回空

问题描述投票：0回答：3

3个回答

最新问题

beautifulSoup soup.select（）对于CSS选择器返回空

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3