我正在尝试在 google colab 中安装 tesseract 4.1.1。我已经安装了 tesseract,我可以使用
!tesseract --version
检查版本。之后我在/usr/local/share/tessdata/
文件夹中下载了eng.traineddata和org.traineddata
现在当尝试从 python 使用它时,它给了我以下错误
TesseractError: (1, 'Error opening data file /usr/local/share/tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'eng\' Tesseract couldn\'t load any languages!)
我尝试使用此方法检查文件是否存在
if os.path.isfile('/usr/local/share/tessdata/eng.traineddata'):
print ("File exist")
打印
File exist
。任何有关这方面的帮助将不胜感激。谢谢
我不知道你尝试过哪些软件包,但我会将我的解决方案用于谷歌协作
首先安装tesseract-ocr
!sudo apt install tesseract-ocr
使用 pip 安装 tesserarct
!pip install pytesseract
设置您的环境文件夹
import os
os.environ['TESSDATA_PREFIX'] = '/usr/share/tesseract-ocr/4.00/tessdata/'
(可选)如果您想要英语以外的其他语言(即 fr 或 esp),则必须使用此安装,在我的情况下,我使用日语
!apt-get install -y language-pack-ja
!export LC_ALL=ja_JP.utf8
import locale
!apt-get install -y tesseract-ocr-jpn
检查您的语言是否已安装(您的代码),默认安装英语,但以下我的情况是
import os
if os.path.isfile('/usr/share/tesseract-ocr/4.00/tessdata/jpn.traineddata'):
print ("File exist")
else:
print("Nope")
配置完毕后,您就可以运行代码了
import pytesseract
import shutil
import os
import random
try:
from PIL import Image
except ImportError:
import Image
from google.colab import files
uploaded = files.upload()
'''here you can delete the lang atribute because english is by default, in my case i uploaded an image named "2.png"'''
extractedInformation = pytesseract.image_to_string(Image.open('2.png'), lang="jpn")
print(extractedInformation)
希望可以帮到你
尝试这个命令
export TESSDATA_PREFIX=/usr/local/share/