如何在脚本中的特定HTML标记之间提取文本

Question

鉴于我在表单中有一些HTML：

<html>
  <body>
    <div id="1" class="c">some other html stuff</div>
  </body>
</html>

如何用Unix脚本解压缩？

some other html stuff

Answer 1

您可以签出html-xml-utils和hxselect命令，它允许您提取与CSS选择器匹配的元素：

hxselect '.c' < test.htm

这假设您的输入是格式良好的XML文档。如果不是，你可能需要诉诸正则表达式和possible consequences。

Answer 2

对于简单用途，您可以使用Ex编辑器，例如：

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff

在哪里找到div标签，然后选择找到标签的内部HTML标签（vit），将它（y）用它来替换缓冲区（%delete，put 0），然后打印它（%print），然后退出（-cq!）。

使用演示URL的其他示例：

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/

优点是ex是大多数Linux / Unix发行版中可用的标准Unix编辑器。

也可以看看：