如何在脚本中的特定HTML标记之间提取文本

问题描述 投票:0回答:2

鉴于我在表单中有一些HTML:

<html>
  <body>
    <div id="1" class="c">some other html stuff</div>
  </body>
</html>

如何用Unix脚本解压缩?

some other html stuff
shell unix
2个回答
3
投票

您可以签出html-xml-utilshxselect命令,它允许您提取与CSS选择器匹配的元素:

hxselect '.c' < test.htm

这假设您的输入是格式良好的XML文档。如果不是,你可能需要诉诸正则表达式和possible consequences


1
投票

对于简单用途,您可以使用Ex编辑器,例如:

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff

在哪里找到div标签,然后选择找到标签的内部HTML标签(vit),将它(y)用它来替换缓冲区(%deleteput 0),然后打印它(%print),然后退出(-cq!)。

使用演示URL的其他示例:

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/

优点是ex是大多数Linux / Unix发行版中可用的标准Unix编辑器。

也可以看看:

© www.soinside.com 2019 - 2024. All rights reserved.