lxml 相关问题

lxml是一个功能齐全的高性能Python库,用于处理XML和HTML。

lxml.etree 元素在副本上删除命名空间

我正在使用 lxml.etree 库将 XML 文件拼接在一起,并且命名空间在写入时被删除。 输入.xml ...

回答 1 投票 0

Python/Xpath - 如何抓取 href 字段

举个例子,我想从下面的页面中提取团队名称 http://www.scoresandodds.com/grid_20150409.html 我试过: 从 lxml 导入 html 导入请求 pageNBA = requests.get('

回答 1 投票 0

带有请求和lxml的Python Scrape网站..[重复]

以此为起点.. http://docs.python-guide.org/en/latest/scenarios/scrape/ 从 lxml 导入 html 导入请求 页面 = requests.get('http://econpy.pythonanywhere.com/ex/001.html')...

回答 1 投票 0

将从 url 获取的 lxml 解析为 json

我想获取披头士乐队所有歌曲的表格并将其解析为 JSON 格式,并按麦卡特尼和列侬创作的歌曲进行分类... 当我运行以下命令时得到的数据...

回答 2 投票 0

Python 包 lxml 无法在没有互联网的 Windows 上安装

我目前面临的问题是我想在Windows计算机上离线安装“lxml”库。通过互联网连接,可以使用以下命令完成: py -m pip 我...

回答 0 投票 0

在Python中使用XPath计算节点的最有效方法

在Python中,如何使用XPath计算节点数? 例如,使用此网页和此代码: 从 lxml 导入 html、etree 导入请求 url =“http://intelligencesquaredus.org/debates/past-

回答 1 投票 0

使用lxml解析html文档时出现编码问题

我正在尝试从某些网页中获取干净的文本。 我读了很多教程,最后得到了 python lxml + beautifulsoup + requests 模块。 使用 lxml 进行这样的任务的原因...

回答 1 投票 0

从网页抓取表格

我正在尝试从此网页提取 CSU 员工工资数据(http://www.sacbee.com/statepay/#req=employee%2Fsearch%2Fname%3D%2Fyear%3D2013%2Fdepartment%3DCSU%20Sacramento) 。我试过用你的...

回答 2 投票 0

在Python中获取两个标签之间的数据

基于粒度计算 数据 采矿 在ro看来... <h3> <a href="article.jsp?tp=&arnumber=16"> Granular computing based <span class="snippet">data</span> <span class="snippet">mining</span> in the views of rough set and fuzzy set </a> </h3> 使用Python我想从锚标签中获取值,这应该是基于粗糙集和模糊集视图中的粒度计算的数据挖掘 我尝试使用 lxml parser = etree.HTMLParser() tree = etree.parse(StringIO.StringIO(html), parser) xpath1 = "//h3/a/child::text() | //h3/a/span/child::text()" rawResponse = tree.xpath(xpath1) print rawResponse 并得到以下输出 ['\r\n\t\t','\r\n\t\t\t\t\t\t\t\t\tgranular computing based','data','mining','in the view of roughset and fuzzyset\r\n\t\t\t\t\t\t\] 您可以使用text_content方法: import lxml.html as LH html = '''<h3> <a href="article.jsp?tp=&arnumber=16"> Granular computing based <span class="snippet">data</span> <span class="snippet">mining</span> in the views of rough set and fuzzy set </a> </h3>''' root = LH.fromstring(html) for elt in root.xpath('//a'): print(elt.text_content()) 产量 Granular computing based data mining in the views of rough set and fuzzy set 或者,要删除空格,您可以使用 print(' '.join(elt.text_content().split())) 获得 Granular computing based data mining in the views of rough set and fuzzy set 这是您可能会发现有用的另一个选项: print(' '.join([elt.strip() for elt in root.xpath('//a/descendant-or-self::text()')])) 产量 Granular computing based data mining in the views of rough set and fuzzy set (请注意,它在 data 和 mining 之间留下了额外的空格。) '//a/descendant-or-self::text()' 是更通用的版本 "//a/child::text() | //a/span/child::text()"。它将遍历所有子代和孙代等。 与BeautifulSoup: >>> from bs4 import BeautifulSoup >>> html = (the html you posted above) >>> soup = BeautifulSoup(html) >>> print " ".join(soup.h3.text.split()) Granular computing based data mining in the views of rough set and fuzzy set 说明: BeautifulSoup 解析 HTML,使其易于访问。 soup.h3 访问 HTML 中的 h3 标签。 .text,简单来说,从 h3 标签获取所有内容,不包括所有其他标签,例如 span。 我在这里使用 split() 来消除多余的空格和换行符,然后使用 " ".join() 作为 split 函数返回一个列表。

回答 2 投票 0

在 Python 中使用 etree.XPath 并使用联合运算符“|”时如何修复“XPath 语法错误:无效表达式”

我正在尝试在 Python 中使用 etree.XPath 编译 XPath 表达式,但遇到语法错误。这是代码片段: XPATH = '//桥域/(桥域组名称|桥域...

回答 1 投票 0

Ruby 中可用的网页抓取 gem/工具 [已关闭]

我正在尝试在我正在处理的 Ruby 脚本中抓取网页。 该项目的目的是展示哪些 ETF 和股票共同基金最符合价值投资理念。

回答 2 投票 0

在 Python 3 中使用开放任意标签解析 SGML

我正在尝试解析一个文件,例如: http://www.sec.gov/Archives/edgar/data/1409896/000118143112051484/0001181431-12-051484.hdr.sgml 我正在使用 Python 3,但无法找到解决方案

回答 2 投票 0

网络解析内容的 lxml 长度

我用Python中的lxml抓取网页。然而,为了获取表行数,我首先获取所有行,然后使用 len() 函数。我觉得很浪费,还有其他方法可以得到他们的号码吗(动态...

回答 3 投票 0

获取lxml中特定名称的所有节点?

我发现 lxml 的初始学习曲线有点陡峭 - 只是常见任务,例如按名称、属性抓取节点并获取其内容。这是一个非常简单的问题。 我有一个 XML 文件。我

回答 1 投票 0

BeautifulSoup 和 lxml.html - 更喜欢哪个? [重复]

我正在开发一个涉及解析 HTML 的项目。 四处搜索后,我发现了两个可能的选择:BeautifulSoup 和 lxml.html 有什么理由更喜欢其中一种吗?我有...

回答 4 投票 0

获取lxml中标签内的所有文本

我想编写一个代码片段,在下面的所有三个实例中,在 lxml 中获取 标记内的所有文本,包括代码标记。我尝试过 tostring(getchildren()) 但是

回答 15 投票 0

在lxml中查找子项的索引

我正在使用Python 3.12和lxml。 我想找到一个特定的标签,我可以使用 elem.find("tag") 来完成。 elem 是 Element 类型。 但我想将这个孩子的子元素移动到...

回答 1 投票 0

XPath Python 错误:“列表”对象没有属性“xpath”

我对Python和网络抓取是全新的,我一生都无法弄清楚我的代码出了什么问题。是因为我只抓取一个元素而不是列表吗?我检查了我的 XPath,所以我...

回答 1 投票 0

XPath 匹配包含文本的每个节点

如何递归匹配所有包含文本的子节点。 如果我有一棵像这样的树 桌子 t TD “你好” TD 乙 “你好” t TD “致敬” TD 嗯 “你好” 我如何匹配每个...

回答 2 投票 0

无法从 docx 中提取元素 xpath

使用 python-docx-oss,我使用以下代码(我想将标题 3 样式写入 TXT 文件,并仅包含 3 级编号的大纲/级别,即 x.x.x): 从 docx 导入文档...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.