鉴于我在表单中有一些HTML:
<html>
<body>
<div id="1" class="c">some other html stuff</div>
</body>
</html>
如何用Unix脚本解压缩?
some other html stuff
您可以签出html-xml-utils和hxselect
命令,它允许您提取与CSS选择器匹配的元素:
hxselect '.c' < test.htm
这假设您的输入是格式良好的XML文档。如果不是,你可能需要诉诸正则表达式和possible consequences。
对于简单用途,您可以使用Ex编辑器,例如:
$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff
在哪里找到div
标签,然后选择找到标签的内部HTML标签(vit
),将它(y
)用它来替换缓冲区(%delete
,put 0
),然后打印它(%print
),然后退出(-cq!
)。
使用演示URL的其他示例:
$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/
优点是ex
是大多数Linux / Unix发行版中可用的标准Unix编辑器。
也可以看看: