我有一堆带有大量数据的html文件,我想提取其中的重要部分。这些文件非常相似。我必须搜索包含特定关键字的<tr>
。该表行的第三列始终包含我要搜索的“块”的名称(它是几个表行)。
//body/table/tbody/tr[td = "Deployed to"]/td[3]/div//span[text()]
通过此XPath查询,我得到了名称(也许是一个,也许更多)问题是,如何摆脱数据周围的标签?
现在我的输出是这样的:
<span class="log_entry_text">Name1</span><span class="log_entry_text">Name2</span><span class="log_entry_text">Name3</span>
我想要这样的东西:Name1 Name2 Name3因此,我可以使用它更轻松地提取这些块。使用string(),我只能提取第一个元素(结果为:Name1)
感谢您的帮助!
您的XPath表达式要求检索span
元素,这就是它返回的内容。如果在输出中看到带有尖括号的标签,那是由于接收应用程序处理和呈现XPath结果的方式。
尝试