如何在没有jsoup的情况下在java中仅使用正则表达式解析HTML TAG [关闭]

问题描述 投票:-1回答:2

大家好我只需要解析HTML标签与REGEX,并留下非html标签与jsoup

例如

<h1> i love india <\h1>
<xyz> name <\xyz>
<html> hey i won! <\html>
<syd> like it <\syd>
<<<<<<
<br> love you <br>  
>>>>>>>>

预期产量是:

i love india
none
hey i won!
none
none
love you
none

我尝试了很多,但没有得到确切的答案任何人帮我解决这个问题。提前致谢。

java html5 parsing html-parsing
2个回答
0
投票

请尝试以下方法:

        String[] array = { "<h1> i love india <\h1>",
                           "<xyz> name <\xyz>",
                           "<html> hey i won! <\html>",
                           "<syd> like i`enter code here`t <\syd>"
                        };
    Pattern pattern = Pattern.compile(">((.[^><]+))<");
    for (String str : array ) {
        Matcher m = pattern.matcher(str);
        if(m.find()) 
          System.out.println(m.group(1));
        else
          System.out.println("none");
    }

0
投票

使用正则表达式删除所有标记:

s.replaceAll("<[^>]*>", "");
© www.soinside.com 2019 - 2024. All rights reserved.