从 Linux 终端获取网页标题、图片、元数据信息

Question

有什么方法或任何工具可以用来从 SH 脚本、网页标题、元数据（例如描述）、网页的小屏幕截图或类似的东西中获取？

提前致谢！

Answer 1

您可以使用curl或wget获取网页，然后将其通过管道传递给sed以获取各种标签的内容。这有点笨拙 as，但是如果你使用 shell 脚本做这些事情，这就是你会得到的结果。

例如

wget http://example.com -O - | grep \<title\>|sed "s/\<title\>\([^<]*\).*/\1/"

会给你标题标签的内容。请注意，在此示例中，它为您提供了原始的未解析源，因此它看起来像

IANA &mdash; Example domains

而不是

IANA – Example domains

。

你考虑过使用像perl这样的东西吗？