我试图从维基百科的页面(像这样的例如:https://de.wikipedia.org/wiki/Liste_der_Bisch%C3%B6fe_von_Sk%C3%A1lholt)刮列出了一个特定的格式。我遇到越来越“礼”和“A HREF”投其所好的问题。
例如,从上面的页面,第九颗子弹都有文字:
1238年至1268年:SigvarðurÞéttmarsson(挪威)
与HTML:
<li>1238–1268: <a href="/wiki/Sigvar%C3%B0ur_%C3%9E%C3%A9ttmarsson" title="Sigvarður Þéttmarsson">Sigvarður Þéttmarsson</a> (Norweger)</li>
我希望把它一起作为一个词典:
'1238至1268年:SigvarðurÞéttmarsson(Norweger)': '/维基/ Sigvar%C3%B0ur_%C3%9E%C3%A9ttmarsson'
[“礼”和“一个”孩子的两个部分全文]:[的“A”孩子HREF]
我知道我可以使用LXML / etree要做到这一点,但我不完全知道如何。的下面的一些重组?
from lxml import etree
tree = etree.HTML(html)
bishops = tree.cssselect('li').text for bishop
text = [li.text for li in bishops]
links = tree.cssselect('li a')
hrefs = [bishop.get('href') for bishop in links]