PDFBox 2 Column问题如何检查珠子

Question

我有 http://laws-lois.justice.gc.ca/PDF/A-8.8.pdf，我正在尝试使用有 2 列的 PDFBox 进行解析。我希望解析文本，以便将列分开，但是当我通过 PDFBox 运行它时，它不会分隔两列，而是将两列中的行连接在一起。

我读过https://issues.apache.org/jira/browse/PDFBOX-448，其中说某些PDF没有可以使用的文章/珠子，因此解析总是错误的。我尝试过使用

stripper.setShouldSeparateByBeads(true)

如何检查它是否有珠子？除了有关 PDFBox 列解析的问题之外，我还没有找到任何有关此概念的阅读材料。

Answer 1

您可以使用

PDPage.getThreadBeads()

检查珠子是否在页面中。如果没有线程珠，这将返回一个空列表。

剧透警告：您的文档没有任何内容。

有关如何使用它们的示例可以在源代码下载中的

DrawPrintTextLocations.java

示例中找到。带珠子的 PDF 文件示例可以在文件

PDFBOX-3110-003422-p1-beads.pdf

和

PDFBOX-3110-poems-beads.pdf

中找到，也可以在源代码下载中找到。

额外提示：查看

ExtractTextByArea.java

示例，这应该可以帮助您提取 PDF 文件。

Answer 2

@Tilman Hausherr 我无法使用您提供的这些链接获取 pdf，您可以将其作为链接发送吗？