parsing 相关问题

t ... 使用JSOUP，我尝试解析给定的HTML内容。 Jsoup.parse()之后，HTML输出将html，head和body标记附加到输入。我只想忽略这些。样本输入： This is my sentence of text. java代码： import java.io.File; import java.io.IOException; import org.apache.commons.io.FileUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class HTMLParse { public static void main(String args[]) throws IOException { try{ File input = new File("/ab.html"); String html = FileUtils.readFileToString(input, null); Document doc = Jsoup.parseBodyFragment(html); doc.outputSettings().prettyPrint(false); System.out.println(doc.html()); } catch(Exception e){ e.printStackTrace(); } } } 实际输出： <html><head></head><body>This is my sentence of text. </body></html> 指望输出： This is my sentence of text. 如何阻止jsoup添加这些标签？原因： parseBodyFragment()以及所有其他parse()方法都使用HTMLParser默认。这些添加了html-shell（<html>…</html>，<head>…</head>等）。解决方案：不使用HTML-parser，而是使用xml-parser ;--) Document doc = Jsoup.parse(html, "", Parser.xmlParser()); 取代单线和您的问题已解决。示例： final String html = "This is my sentence of text."; Document docHtml = Jsoup.parse(html); Document docXml = Jsoup.parse(html, "", Parser.xmlParser()); System.out.println("******* HTML *******\n" + docHtml); System.out.println(); System.out.println("******* XML *******\n" + docXml); 输出： ******* HTML ******* <html> <head></head> <body> This is my sentence of text. </body> </html> ******* XML ******* This is my sentence of text. 要获得预期的输出实际上是： final String html = "This is my sentence of text."; Document doc = Jsoup.parseBodyFragment(html); doc.outputSettings().prettyPrint(false); System.out.println(doc.body().html()); 您可以尝试使用XML解析器，但这并不总是有效，因为HTML并非总是XML。它通常具有诸如<img>和 之类的未终止标签。最好坚持使用HTML解析器。您可以依靠存在<html>，<head>和<body>标签，它们很容易丢弃。只需通过选择身体标签并要求其HTML来获取HTML的片段。 Document doc = Jsoup.parseBodyFragment(html); doc.outputSettings().prettyPrint(false); System.out.println(doc.select("body").html()); 您可以与HTML解析器一起使用JSOUP.PARSE。您需要做的就是剥离html和body包装器。可以通过选择body元素和unwrappingit：来完成此操作： String input = "This is my sentence of text."; Node content = Jsoup.parse(input).body().unwrap(); System.out.println(content.html()); 通过body()您选择body元素，然后您删除身体，只保留内容。输出为：unwrap()

java html parsing jsoup

回答 4 投票 0

接种错误salaros.configuration.configparserexception：“这个键值对是孤儿，.....”

之后保存一些值

c# parsing config app-config ini

回答 1 投票 0

parsing 相关问题

最新问题