Adobe Acrobat / Python PDF输出不同

问题描述 投票:1回答:1

我注意到当我使用OCR将扫描的PDF文档转换为文本时,在这种情况下是Adobe Acrobat Pro,根据我提取数据的方式,我得到的输出非常不同。

enter image description here

在上面的照片中 - 您可以看到一段PDF已被OCR打造成质量相当高的文本。如果我在Adobe中选择并将其复制为单词或txt文档,则它会完全粘贴。

enter image description here

但是,如果我使用Adobe将其导出为富文本格式,请使用Python的PDFminer或Python Apache Tika,然后我会得到上面的照片,您可以看到它完全混淆了它。这些方法之间的提取结果非常一致 - 基本上所有3都以完全相同的方式混杂。

您是否有任何想法为什么OCR的PDF可以很好地复制到文本编辑器但是以这种奇怪的方式提取?

谢谢!

问候,我的

python-3.x adobe pdfbox apache-tika pdfminer
1个回答
0
投票

所以最终为我工作的是使用Apache-Tika进行初始解析,然后在少数没有工作的情况下,将它们传递给PyPDF2。我的理论是PyPDF2使用不同的解析机制,不依赖于PDF的根,而不像Tika,这似乎已经在一些OCR文档中被破坏了。

不确定最初的原因,但这是我的解决方案。

© www.soinside.com 2019 - 2024. All rights reserved.