我有 http://laws-lois.justice.gc.ca/PDF/A-8.8.pdf,我正在尝试使用有 2 列的 PDFBox 进行解析。 我希望解析文本,以便将列分开,但是当我通过 PDFBox 运行它时,它不会分隔两列,而是将两列中的行连接在一起。
我读过https://issues.apache.org/jira/browse/PDFBOX-448,其中说某些PDF没有可以使用的文章/珠子,因此解析总是错误的。 我尝试过使用
stripper.setShouldSeparateByBeads(true)
如何检查它是否有珠子? 除了有关 PDFBox 列解析的问题之外,我还没有找到任何有关此概念的阅读材料。
您可以使用
PDPage.getThreadBeads()
检查珠子是否在页面中。如果没有线程珠,这将返回一个空列表。
剧透警告:您的文档没有任何内容。
有关如何使用它们的示例可以在源代码下载中的
DrawPrintTextLocations.java
示例中找到。带珠子的 PDF 文件示例可以在文件 PDFBOX-3110-003422-p1-beads.pdf
和 PDFBOX-3110-poems-beads.pdf
中找到,也可以在源代码下载中找到。
额外提示:查看
ExtractTextByArea.java
示例,这应该可以帮助您提取 PDF 文件。
@Tilman Hausherr 我无法使用您提供的这些链接获取 pdf,您可以将其作为链接发送吗?