问题刮擦元件及儿童用文字和LXML etree

问题描述 投票:0回答:1

我试图从维基百科的页面(像这样的例如:https://de.wikipedia.org/wiki/Liste_der_Bisch%C3%B6fe_von_Sk%C3%A1lholt)刮列出了一个特定的格式。我遇到越来越“礼”和“A HREF”投其所好的问题。

例如,从上面的页面,第九颗子弹都有文字:

1238年至1268年:SigvarðurÞéttmarsson(挪威)

与HTML:

 <li>1238–1268: <a href="/wiki/Sigvar%C3%B0ur_%C3%9E%C3%A9ttmarsson" title="Sigvarður Þéttmarsson">Sigvarður Þéttmarsson</a> (Norweger)</li>

我希望把它一起作为一个词典:

'1238至1268年:SigvarðurÞéttmarsson(Norweger)': '/维基/ Sigvar%C3%B0ur_%C3%9E%C3%A9ttmarsson'

[“礼”和“一个”孩子的两个部分全文]:[的“A”孩子HREF]

我知道我可以使用LXML / etree要做到这一点,但我不完全知道如何。的下面的一些重组?

from lxml import etree
tree = etree.HTML(html)

bishops = tree.cssselect('li').text for bishop
text = [li.text for li in bishops]

links = tree.cssselect('li a')
hrefs = [bishop.get('href') for bishop in links]
python web-scraping css-selectors lxml elementtree
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.