使用PDF2DOM将PDF解析为HTML将返回null

Question

我正在使用pdf2dom并尝试他们的基本文档。在他们的文档中说明 - Pdf2Dom基于Apache PDFBox™库。

File file = new File("file.pdf");
PDDocument pdf = PDDocument.load(file);
PDFDomTree parser = new PDFDomTree();
Document dom = parser.createDOM(pdf);
System.out.println(dom);

什么被打印出来 - [#document：null]

用3种不同的pdf尝试相同的代码

当我在文本中删除相同的PDF时，它返回有效文本。因此该文件不为空。我做错了什么或图书馆本身？

剥离器代码，如果它有帮助。

PDDocument pdf = PDDocument.load(pFile);
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(pd);
System.out.println(text);

任何建议将不胜感激，提前谢谢。

Answer 1

你的代码没有错。 toString()对象的Document方法以这种方式返回。

[#document：null]由两部分组成。第一部分是#document，它是节点名称。解析XML时，始终会收到#document节点作为顶级节点。第二部分为null，即节点的值。 null用于指示节点没有值。

如果你打印dom.getDocumentElement().getTextContent()然后你应该看到一些价值。

使用PDF2DOM将PDF解析为HTML将返回null

问题描述投票：1回答：1

1个回答

最新问题

使用PDF2DOM将PDF解析为HTML将返回null

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1