如何在没有jsoup的情况下在java中仅使用正则表达式解析HTML TAG [关闭]

Question

大家好我只需要解析HTML标签与REGEX，并留下非html标签与jsoup

例如

<h1> i love india <\h1>
<xyz> name <\xyz>
<html> hey i won! <\html>
<syd> like it <\syd>
<<<<<<
<br> love you <br>  
>>>>>>>>

预期产量是：

i love india
none
hey i won!
none
none
love you
none

我尝试了很多，但没有得到确切的答案任何人帮我解决这个问题。提前致谢。

Answer 1

请尝试以下方法：

        String[] array = { "<h1> i love india <\h1>",
                           "<xyz> name <\xyz>",
                           "<html> hey i won! <\html>",
                           "<syd> like i`enter code here`t <\syd>"
                        };
    Pattern pattern = Pattern.compile(">((.[^><]+))<");
    for (String str : array ) {
        Matcher m = pattern.matcher(str);
        if(m.find()) 
          System.out.println(m.group(1));
        else
          System.out.println("none");
    }

Answer 2

使用正则表达式删除所有标记：

s.replaceAll("<[^>]*>", "");

如何在没有jsoup的情况下在java中仅使用正则表达式解析HTML TAG [关闭]

问题描述投票：-1回答：2

2个回答

最新问题

如何在没有jsoup的情况下在java中仅使用正则表达式解析HTML TAG [关闭]

问题描述 投票：-1回答：2

2个回答

最新问题

问题描述投票：-1回答：2