Tesseract 找不到任何语言

问题描述 投票:0回答:0

这似乎是一个相当普遍的问题,并且一直在尝试不同的方法来使这个程序工作。我知道有很多与我类似的现有问题,但由于我发现的方法都不起作用,我希望能得到一些新鲜的想法。 TIA

这里是准确的错误消息:

"pytesseract.pytesseract.TesseractError: (1, '打开数据文件时出错 C:\Program Files (x86)\Tesseract-OCR essdata/eng.traineddata 请确保 TESSDATA_PREFIX 环境变量设置为您的父目录" tessdata" 目录。加载语言 'eng' 失败 Tesseract 无法加载任何语言!无法初始化 tesseract。')"

这是我目前使用的代码:

from pdf2image import convert_from_path
import pytesseract

images = convert_from_path("CHECK_12-01-22.pdf", 500, poppler_path=r'C:\Program Files\poppler-23.01.0\Library\bin')
for i, image in enumerate(images):
    fname = 'image' + str(i) + '.png'
    image.save(fname, "PNG")

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

text = pytesseract.image_to_string(image, lang='eng')
# text = pytesseract.image_to_string(image, lang='eng', config='--tessdata-dir "C:\\Program Files\\Tesseract-OCR\\tessdata"')

我正在使用 Windows 11 和 PyCharm。

我有 Poppler 工作,它将我的 PDF 转换为图像,但是当我尝试运行 Tesseract 时,它说没有找到任何语言。我尝试了几种不同的方法来让它工作。首先设置我的环境变量。 image of environment variable path

然后我尝试在我的代码中使用配置。

text = pytesseract.image_to_string(image, lang='eng', config='--tessdata-dir "C:\\Program Files\\Tesseract-OCR\\tessdata"')

这也没有用。我下载了不同语言的数据文件放到tessdata文件夹里也没用

python pycharm environment-variables tesseract python-tesseract
© www.soinside.com 2019 - 2024. All rights reserved.