大家好我只需要解析HTML标签与REGEX,并留下非html标签与jsoup
例如
<h1> i love india <\h1>
<xyz> name <\xyz>
<html> hey i won! <\html>
<syd> like it <\syd>
<<<<<<
<br> love you <br>
>>>>>>>>
预期产量是:
i love india
none
hey i won!
none
none
love you
none
我尝试了很多,但没有得到确切的答案任何人帮我解决这个问题。提前致谢。
请尝试以下方法:
String[] array = { "<h1> i love india <\h1>",
"<xyz> name <\xyz>",
"<html> hey i won! <\html>",
"<syd> like i`enter code here`t <\syd>"
};
Pattern pattern = Pattern.compile(">((.[^><]+))<");
for (String str : array ) {
Matcher m = pattern.matcher(str);
if(m.find())
System.out.println(m.group(1));
else
System.out.println("none");
}
使用正则表达式删除所有标记:
s.replaceAll("<[^>]*>", "");