PDFBox 2 Column问题如何检查珠子

问题描述 投票:0回答:2

我有 http://laws-lois.justice.gc.ca/PDF/A-8.8.pdf,我正在尝试使用有 2 列的 PDFBox 进行解析。 我希望解析文本,以便将列分开,但是当我通过 PDFBox 运行它时,它不会分隔两列,而是将两列中的行连接在一起。

我读过https://issues.apache.org/jira/browse/PDFBOX-448,其中说某些PDF没有可以使用的文章/珠子,因此解析总是错误的。 我尝试过使用

stripper.setShouldSeparateByBeads(true)

如何检查它是否有珠子? 除了有关 PDFBox 列解析的问题之外,我还没有找到任何有关此概念的阅读材料。

java pdf pdfbox
2个回答
3
投票

您可以使用

PDPage.getThreadBeads()
检查珠子是否在页面中。如果没有线程珠,这将返回一个空列表。

剧透警告:您的文档没有任何内容。

有关如何使用它们的示例可以在源代码下载中的

DrawPrintTextLocations.java
示例中找到。带珠子的 PDF 文件示例可以在文件
PDFBOX-3110-003422-p1-beads.pdf
PDFBOX-3110-poems-beads.pdf
中找到,也可以在源代码下载中找到。

额外提示:查看

ExtractTextByArea.java
示例,这应该可以帮助您提取 PDF 文件。


0
投票

@Tilman Hausherr 我无法使用您提供的这些链接获取 pdf,您可以将其作为链接发送吗?

© www.soinside.com 2019 - 2024. All rights reserved.