我正在尝试从多个 PDF 中提取特定数据。我首先使用水平线和垂直线隔离示例图像(图 1)来创建单元格。创建单元格后,我在启动 pytesseract-OCR 之前裁剪它们以从每个单元格中提取文本,如图 2 所示。
在文本提取步骤之前一切正常。提取仅对某些细胞有效。例如,在图2中,我想提取文本“PROJEKTNAMN”和“TRANSPORTGARAGET”,但只有后者被成功提取。
我认为这个问题可能是由于字体大小不同造成的。我尝试过调整oem和psm等参数,但没有任何改善。
有人有任何建议或解决方案来帮助解决这个问题吗?
我尝试过的事情是:
在 Tesseract 中,您的
tessdata
与您在图像上应用的预处理和其他逻辑一样重要。我将提供一个适用于您的图像的文件。
from PIL import Image
import pytesseract
tesseract_path=r'/path/to/your/tesseract'
pytesseract.pytesseract.tesseract_cmd = tesseract_path
image_path = 'HDQ9DjOy.png'
img = Image.open(image_path)
text = pytesseract.image_to_string(img)
print(text)
这给了我输出,您可以在其上应用一些处理来获得所需的输出,
PROJEKTNAMN
TRANSPORT GARAGET