问题刮擦元件及儿童用文字和LXML etree

Question

我试图从维基百科的页面（像这样的例如：https://de.wikipedia.org/wiki/Liste_der_Bisch%C3%B6fe_von_Sk%C3%A1lholt）刮列出了一个特定的格式。我遇到越来越“礼”和“A HREF”投其所好的问题。

例如，从上面的页面，第九颗子弹都有文字：

1238年至1268年：SigvarðurÞéttmarsson（挪威）

与HTML：

 <li>1238–1268: <a href="/wiki/Sigvar%C3%B0ur_%C3%9E%C3%A9ttmarsson" title="Sigvarður Þéttmarsson">Sigvarður Þéttmarsson</a> (Norweger)</li>

我希望把它一起作为一个词典：

'1238至1268年：SigvarðurÞéttmarsson（Norweger）'： '/维基/ Sigvar％C3％B0ur_％C3％9E％C3％A9ttmarsson'

[“礼”和“一个”孩子的两个部分全文]：[的“A”孩子HREF]

我知道我可以使用LXML / etree要做到这一点，但我不完全知道如何。的下面的一些重组？

from lxml import etree
tree = etree.HTML(html)

bishops = tree.cssselect('li').text for bishop
text = [li.text for li in bishops]

links = tree.cssselect('li a')
hrefs = [bishop.get('href') for bishop in links]

问题刮擦元件及儿童用文字和LXML etree

问题描述投票：0回答：1

1个回答

最新问题

问题刮擦元件及儿童用文字和LXML etree

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1