lxml 相关问题

lxml是一个功能齐全的高性能Python库，用于处理XML和HTML。

lxml.etree 元素在副本上删除命名空间

我正在使用 lxml.etree 库将 XML 文件拼接在一起，并且命名空间在写入时被删除。输入.xml ...

python xml lxml elementtree

回答 1 投票 0

Python/Xpath - 如何抓取 href 字段

举个例子，我想从下面的页面中提取团队名称 http://www.scoresandodds.com/grid_20150409.html 我试过：从 lxml 导入 html 导入请求 pageNBA = requests.get('

python web-scraping lxml

回答 1 投票 0

带有请求和lxml的Python Scrape网站..[重复]

以此为起点.. http://docs.python-guide.org/en/latest/scenarios/scrape/ 从 lxml 导入 html 导入请求页面 = requests.get('http://econpy.pythonanywhere.com/ex/001.html')...

python web-scraping python-requests lxml pyquery

回答 1 投票 0

将从 url 获取的 lxml 解析为 json

我想获取披头士乐队所有歌曲的表格并将其解析为 JSON 格式，并按麦卡特尼和列侬创作的歌曲进行分类... 当我运行以下命令时得到的数据...

python json parsing url lxml

回答 2 投票 0

Python 包 lxml 无法在没有互联网的 Windows 上安装

我目前面临的问题是我想在Windows计算机上离线安装“lxml”库。通过互联网连接，可以使用以下命令完成： py -m pip 我...

python windows lxml offline

回答 0 投票 0

在Python中使用XPath计算节点的最有效方法

在Python中，如何使用XPath计算节点数？例如，使用此网页和此代码：从 lxml 导入 html、etree 导入请求 url =“http://intelligencesquaredus.org/debates/past-

python web-scraping xpath python-requests lxml

回答 1 投票 0

使用lxml解析html文档时出现编码问题

我正在尝试从某些网页中获取干净的文本。我读了很多教程，最后得到了 python lxml + beautifulsoup + requests 模块。使用 lxml 进行这样的任务的原因...

python html web-scraping unicode lxml

回答 1 投票 0

从网页抓取表格

我正在尝试从此网页提取 CSU 员工工资数据（http://www.sacbee.com/statepay/#req=employee%2Fsearch%2Fname%3D%2Fyear%3D2013%2Fdepartment%3DCSU%20Sacramento）。我试过用你的...

python html web-scraping web-crawler lxml

回答 2 投票 0

在Python中获取两个标签之间的数据

基于粒度计算数据采矿在ro看来... <h3> <a href="article.jsp?tp=&arnumber=16"> Granular computing based <span class="snippet">data</span> <span class="snippet">mining</span> in the views of rough set and fuzzy set </a> </h3> 使用Python我想从锚标签中获取值，这应该是基于粗糙集和模糊集视图中的粒度计算的数据挖掘我尝试使用 lxml parser = etree.HTMLParser() tree = etree.parse(StringIO.StringIO(html), parser) xpath1 = "//h3/a/child::text() | //h3/a/span/child::text()" rawResponse = tree.xpath(xpath1) print rawResponse 并得到以下输出 ['\r\n\t\t','\r\n\t\t\t\t\t\t\t\t\tgranular computing based','data','mining','in the view of roughset and fuzzyset\r\n\t\t\t\t\t\t\] 您可以使用text_content方法： import lxml.html as LH html = '''<h3> <a href="article.jsp?tp=&arnumber=16"> Granular computing based <span class="snippet">data</span> <span class="snippet">mining</span> in the views of rough set and fuzzy set </a> </h3>''' root = LH.fromstring(html) for elt in root.xpath('//a'): print(elt.text_content()) 产量 Granular computing based data mining in the views of rough set and fuzzy set 或者，要删除空格，您可以使用 print(' '.join(elt.text_content().split())) 获得 Granular computing based data mining in the views of rough set and fuzzy set 这是您可能会发现有用的另一个选项： print(' '.join([elt.strip() for elt in root.xpath('//a/descendant-or-self::text()')])) 产量 Granular computing based data mining in the views of rough set and fuzzy set （请注意，它在 data 和 mining 之间留下了额外的空格。） '//a/descendant-or-self::text()' 是更通用的版本 "//a/child::text() | //a/span/child::text()"。它将遍历所有子代和孙代等。与BeautifulSoup： >>> from bs4 import BeautifulSoup >>> html = (the html you posted above) >>> soup = BeautifulSoup(html) >>> print " ".join(soup.h3.text.split()) Granular computing based data mining in the views of rough set and fuzzy set 说明： BeautifulSoup 解析 HTML，使其易于访问。 soup.h3 访问 HTML 中的 h3 标签。 .text，简单来说，从 h3 标签获取所有内容，不包括所有其他标签，例如 span。我在这里使用 split() 来消除多余的空格和换行符，然后使用 " ".join() 作为 split 函数返回一个列表。

python web-scraping lxml

回答 2 投票 0

在 Python 中使用 etree.XPath 并使用联合运算符“|”时如何修复“XPath 语法错误：无效表达式”

我正在尝试在 Python 中使用 etree.XPath 编译 XPath 表达式，但遇到语法错误。这是代码片段： XPATH = '//桥域/(桥域组名称|桥域...

python xpath lxml

回答 1 投票 0

Ruby 中可用的网页抓取 gem/工具 [已关闭]

我正在尝试在我正在处理的 Ruby 脚本中抓取网页。该项目的目的是展示哪些 ETF 和股票共同基金最符合价值投资理念。

ruby web-scraping html-parsing lxml

回答 2 投票 0

在 Python 3 中使用开放任意标签解析 SGML

我正在尝试解析一个文件，例如： http://www.sec.gov/Archives/edgar/data/1409896/000118143112051484/0001181431-12-051484.hdr.sgml 我正在使用 Python 3，但无法找到解决方案

python xml python-3.x lxml sgml

回答 2 投票 0

网络解析内容的 lxml 长度

我用Python中的lxml抓取网页。然而，为了获取表行数，我首先获取所有行，然后使用 len() 函数。我觉得很浪费，还有其他方法可以得到他们的号码吗（动态...

python web-scraping lxml

回答 3 投票 0

获取lxml中特定名称的所有节点？

我发现 lxml 的初始学习曲线有点陡峭 - 只是常见任务，例如按名称、属性抓取节点并获取其内容。这是一个非常简单的问题。我有一个 XML 文件。我

python xml lxml

回答 1 投票 0

BeautifulSoup 和 lxml.html - 更喜欢哪个？ [重复]

我正在开发一个涉及解析 HTML 的项目。四处搜索后，我发现了两个可能的选择：BeautifulSoup 和 lxml.html 有什么理由更喜欢其中一种吗？我有...

python beautifulsoup lxml

回答 4 投票 0

获取lxml中标签内的所有文本

我想编写一个代码片段，在下面的所有三个实例中，在 lxml 中获取标记内的所有文本，包括代码标记。我尝试过 tostring(getchildren()) 但是

python parsing lxml

回答 15 投票 0

在lxml中查找子项的索引

我正在使用Python 3.12和lxml。我想找到一个特定的标签，我可以使用 elem.find("tag") 来完成。 elem 是 Element 类型。但我想将这个孩子的子元素移动到...

python python-3.x xml lxml

回答 1 投票 0

XPath Python 错误：“列表”对象没有属性“xpath”

我对Python和网络抓取是全新的，我一生都无法弄清楚我的代码出了什么问题。是因为我只抓取一个元素而不是列表吗？我检查了我的 XPath，所以我...

python web-scraping xpath lxml

回答 1 投票 0

XPath 匹配包含文本的每个节点

如何递归匹配所有包含文本的子节点。如果我有一棵像这样的树桌子 t TD “你好” TD 乙 “你好” t TD “致敬” TD 嗯 “你好” 我如何匹配每个...

python web-scraping xpath lxml

回答 2 投票 0

无法从 docx 中提取元素 xpath

使用 python-docx-oss，我使用以下代码（我想将标题 3 样式写入 TXT 文件，并仅包含 3 级编号的大纲/级别，即 x.x.x）：从 docx 导入文档...

python xpath lxml python-docx

回答 1 投票 0

lxml 相关问题

最新问题