我在使用 pytesseract 时遇到了麻烦。我知道您可以使用命令行参数将超正方体限制为特定的字符集:
tesseract input.tif output nobatch digits
我发现一些人说他们可以在 python 中使用以下几行限制 tesseract :
import tesseract
ocr = tesseract.TessBaseAPI();
ocr.Init(".","eng",tesseract.OEM_TESSERACT_ONLY)
ocr.SetVariable("tessedit_char_whitelist", "0123456789")
但是这是为了使用tesseract API,而我正在使用pytesseract....最后我也尝试了:
print(image_to_string(someimage, config='outputbase digits'))
但这不起作用,因为我的输出中仍然收到字母。这很奇怪,因为我正在使用下面的代码并且它正在工作:
print(image_to_string(screen, config='-psm 10'))
PSM 代表 PageSegmentationMode,它允许我将图像文件解析为单个字符。我不明白为什么这有效,而之前的代码片段却不起作用,因为它们都是 tesseract 的命令行参数......
有人可以帮忙吗?我想将这两个选项与自定义单词列表(我在 tesseract 的配置文件夹中创建)一起使用。
终于找到了解决方案,如果它可以帮助任何人......这是来自tesseract帮助页面:
最简单的超立方体调用:
tesseract imagename outputbase
我可以从中推断出正确的语法(事实上,我在堆栈溢出上发现的所有内容几乎都指向了错误的方向,可能是因为超立方体的版本不同)。请记住,我使用的是 tesseract 3.05(GitHub 上提供的 win 安装程序)和 pytesseract(从 pip 安装)。
image_to_string(someimage, config='digits -psm 7')
正如我们在帮助页面上看到的,outputbase 参数首先出现在文件名之后、其他选项之前,这允许使用 PSM 和受限字符集。
tesseract 帮助页面中的所有命令行参数都可以在 config 变量中以这种方式使用!!