使用tesseract从PDF中提取正确数据的问题

问题描述 投票:0回答:1

我正在尝试从多个 PDF 中提取特定数据。我首先使用水平线和垂直线隔离示例图像(图 1)来创建单元格。创建单元格后,我在启动 pytesseract-OCR 之前裁剪它们以从每个单元格中提取文本,如图 2 所示。

在文本提取步骤之前一切正常。提取仅对某些细胞有效。例如,在图2中,我想提取文本“PROJEKTNAMN”和“TRANSPORTGARAGET”,但只有后者被成功提取。

我认为这个问题可能是由于字体大小不同造成的。我尝试过调整oem和psm等参数,但没有任何改善。

有人有任何建议或解决方案来帮助解决这个问题吗?

图1

图2

我尝试过的事情是:

  • 更改裁剪单元格的缩放。
  • 将 OEM 和 PSM 以及语言更改为瑞典语,但没有更好的结果。
extract ocr tesseract python-tesseract
1个回答
0
投票

在 Tesseract 中,您的

tessdata
与您在图像上应用的预处理和其他逻辑一样重要。我将提供一个适用于您的图像的文件。

tessdata

from PIL import Image
import pytesseract

tesseract_path=r'/path/to/your/tesseract'
pytesseract.pytesseract.tesseract_cmd = tesseract_path

image_path = 'HDQ9DjOy.png'
img = Image.open(image_path)

text = pytesseract.image_to_string(img)
print(text)

这给了我输出,您可以在其上应用一些处理来获得所需的输出,

PROJEKTNAMN

TRANSPORT GARAGET
© www.soinside.com 2019 - 2024. All rights reserved.