我注意到当我使用OCR将扫描的PDF文档转换为文本时,在这种情况下是Adobe Acrobat Pro,根据我提取数据的方式,我得到的输出非常不同。
在上面的照片中 - 您可以看到一段PDF已被OCR打造成质量相当高的文本。如果我在Adobe中选择并将其复制为单词或txt文档,则它会完全粘贴。
但是,如果我使用Adobe将其导出为富文本格式,请使用Python的PDFminer或Python Apache Tika,然后我会得到上面的照片,您可以看到它完全混淆了它。这些方法之间的提取结果非常一致 - 基本上所有3都以完全相同的方式混杂。
您是否有任何想法为什么OCR的PDF可以很好地复制到文本编辑器但是以这种奇怪的方式提取?
谢谢!
问候,我的
所以最终为我工作的是使用Apache-Tika进行初始解析,然后在少数没有工作的情况下,将它们传递给PyPDF2。我的理论是PyPDF2使用不同的解析机制,不依赖于PDF的根,而不像Tika,这似乎已经在一些OCR文档中被破坏了。
不确定最初的原因,但这是我的解决方案。