使用tesseract从PDF中提取正确数据的问题

Question

我正在尝试从多个 PDF 中提取特定数据。我首先使用水平线和垂直线隔离示例图像（图 1）来创建单元格。创建单元格后，我在启动 pytesseract-OCR 之前裁剪它们以从每个单元格中提取文本，如图 2 所示。

在文本提取步骤之前一切正常。提取仅对某些细胞有效。例如，在图2中，我想提取文本“PROJEKTNAMN”和“TRANSPORTGARAGET”，但只有后者被成功提取。

我认为这个问题可能是由于字体大小不同造成的。我尝试过调整oem和psm等参数，但没有任何改善。

有人有任何建议或解决方案来帮助解决这个问题吗？

图1

图2

我尝试过的事情是：

更改裁剪单元格的缩放。
将 OEM 和 PSM 以及语言更改为瑞典语，但没有更好的结果。

Answer 1

在 Tesseract 中，您的

tessdata

与您在图像上应用的预处理和其他逻辑一样重要。我将提供一个适用于您的图像的文件。

tessdata

from PIL import Image
import pytesseract

tesseract_path=r'/path/to/your/tesseract'
pytesseract.pytesseract.tesseract_cmd = tesseract_path

image_path = 'HDQ9DjOy.png'
img = Image.open(image_path)

text = pytesseract.image_to_string(img)
print(text)

这给了我输出，您可以在其上应用一些处理来获得所需的输出，

PROJEKTNAMN

TRANSPORT GARAGET

使用tesseract从PDF中提取正确数据的问题

问题描述投票：0回答：1

1个回答

最新问题

使用tesseract从PDF中提取正确数据的问题

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1