我已经在RedHat机器上安装了:
((py36_maw)[rvp @ lib-archcoll box] $ tesseract -vtesseract 4.1.0Leptonica-1.78.0libjpeg 6b(libjpeg-turbo 1.2.90):libpng 1.5.13:libtiff 4.0.3:zlib 1.2.7:libopenjp2 2.3.1找到上交所
根据我能找到的文档,我尝试运行以生成pdf输出:
((py36_maw)[rvp @ lib-archcoll box] $ time tesseract test.jp2 out -l eng PDFread_params_file:无法打开PDF带Leptonica的Tesseract开源OCR引擎v4.1.0警告:无效的分辨率0 dpi。改用70。估计分辨率为275
这需要10秒钟,并产生带有精细OCR的文件out.txt,显然可以进行文本转换。
但是,它试图读取一个称为PDF的文件,但我不知道如何获得PDF输出。
我已经阅读了各种文档,最有前途的建议似乎是建议编辑配置文件,但我能猜到的唯一的文档都是相关的,通过对'tesseract 4.1 config'进行谷歌搜索,列出了许多'config'变量名(对于较旧的版本)的tesseract,但似乎都没有表明我可以指定产生pdf输出,更不用说专门针对tesseract 4.1了。
如何通过CLI调用tesseract 4.1(使用libopenjp2 2.3.1)来从jp2输入文件中生成pdf输出?额外的问题:如何在一次运行中同时生成txt和pdf输出?
罗伯特
经过更多的浏览和挖掘,假设读者也做了一些工作,并且知道tesseract使用的TESSDATA_PREFIX是什么,下面是对我有用的步骤:
使用test.jp2文件转到目录,并使用以下几行创建文件配置。
tessedit_create_pdf 1写入.pdf输出文件tessedit_create txt 1写入.txt输出文件(注意:或者您也可以将配置文件放在TESSDATA_PREFIX目录中)
在该目录中运行:
$ tesseract test.jp2 outputbase -l eng config
验证您的成功:它将运行并生成文件outputbase.txt和outputbase.pdf。 txt文件看起来不错,可搜索的pdf在pdf查看器中看起来也可以正常工作,也就是说,您可以搜索和查找文本字符串。
希望这对其他人有帮助!