Tesseract 4.1.1 错误 eng.traineddata 在 google colab 中找不到

问题描述 投票:0回答:2

我正在尝试在 google colab 中安装 tesseract 4.1.1。我已经安装了 tesseract,我可以使用

!tesseract --version
检查版本。之后我在
/usr/local/share/tessdata/
文件夹中下载了eng.traineddata和org.traineddata

现在当尝试从 python 使用它时,它给了我以下错误

TesseractError: (1, 'Error opening data file /usr/local/share/tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'eng\' Tesseract couldn\'t load any languages!)

我尝试使用此方法检查文件是否存在


if os.path.isfile('/usr/local/share/tessdata/eng.traineddata'):
    print ("File exist")

打印

File exist
。任何有关这方面的帮助将不胜感激。谢谢

ocr google-colaboratory tesseract python-tesseract
2个回答
0
投票

我不知道你尝试过哪些软件包,但我会将我的解决方案用于谷歌协作

  1. 首先安装tesseract-ocr

    !sudo apt install tesseract-ocr

  2. 使用 pip 安装 tesserarct

    !pip install pytesseract

  3. 设置您的环境文件夹

    import os
    os.environ['TESSDATA_PREFIX'] = '/usr/share/tesseract-ocr/4.00/tessdata/'

  4. (可选)如果您想要英语以外的其他语言(即 fr 或 esp),则必须使用此安装,在我的情况下,我使用日语

    !apt-get install -y language-pack-ja
    !export LC_ALL=ja_JP.utf8
    import locale
    !apt-get install -y tesseract-ocr-jpn

  5. 检查您的语言是否已安装(您的代码),默认安装英语,但以下我的情况是

    import os
    if os.path.isfile('/usr/share/tesseract-ocr/4.00/tessdata/jpn.traineddata'):
      print ("File exist")
    else:
      print("Nope")

  6. 配置完毕后,您就可以运行代码了

    
    import pytesseract
    import shutil
    import os
    import random
    try:
      from PIL import Image
    except ImportError:
      import Image
    from google.colab import files
    uploaded = files.upload()
    '''here you can delete the lang atribute because english is by default, in my case i uploaded an image named "2.png"'''
    extractedInformation = pytesseract.image_to_string(Image.open('2.png'), lang="jpn")
    print(extractedInformation)
    

希望可以帮到你


-1
投票

尝试这个命令

export TESSDATA_PREFIX=/usr/local/share/ 
© www.soinside.com 2019 - 2024. All rights reserved.