正在运行带有openjpeg2的tesseract 4.1-无法产生pdf输出

问题描述 投票:0回答:1

我已经在RedHat机器上安装了:

((py36_maw)[rvp @ lib-archcoll box] $ tesseract -vtesseract 4.1.0Leptonica-1.78.0libjpeg 6b(libjpeg-turbo 1.2.90):libpng 1.5.13:libtiff 4.0.3:zlib 1.2.7:libopenjp2 2.3.1找到上交所

根据我能找到的文档,我尝试运行以生成pdf输出:

((py36_maw)[rvp @ lib-archcoll box] $ time tesseract test.jp2 out -l eng PDFread_params_file:无法打开PDF带Leptonica的Tesseract开源OCR引擎v4.1.0警告:无效的分辨率0 dpi。改用70。估计分辨率为275

这需要10秒钟,并产生带有精细OCR的文件out.txt,显然可以进行文本转换。

但是,它试图读取一个称为PDF的文件,但我不知道如何获得PDF输出。

我已经阅读了各种文档,最有前途的建议似乎是建议编辑配置文件,但我能猜到的唯一的文档都是相关的,通过对'tesseract 4.1 config'进行谷歌搜索,列出了许多'config'变量名(对于较旧的版本)的tesseract,但似乎都没有表明我可以指定产生pdf输出,更不用说专门针对tesseract 4.1了。

如何通过CLI调用tesseract 4.1(使用libopenjp2 2.3.1)来从jp2输入文件中生成pdf输出?额外的问题:如何在一次运行中同时生成txt和pdf输出?

罗伯特

pdf output tesseract
1个回答
0
投票

经过更多的浏览和挖掘,假设读者也做了一些工作,并且知道tesseract使用的TESSDATA_PREFIX是什么,下面是对我有用的步骤:

  1. 首先从https://github.com/tesseract-ocr/tesseract/blob/master/tessdata/pdf.ttf下载pdf.ttf文件>>
  2. 将pdf.ttf复制到目录$ TESSDATA_PREFIX,并确保将变量导出到您的shell。
  3. 提示:使用命令:tesseract --print-parameters#查找可以在自己的配置文件中使用的已定义变量名称
  4. 使用test.jp2文件转到目录,并使用以下几行创建文件配置。

  5. tessedit_create_pdf 1写入.pdf输出文件tessedit_create txt 1写入.txt输出文件(注意:或者您也可以将配置文件放在TESSDATA_PREFIX目录中)

  6. 在该目录中运行:

  7. $ tesseract test.jp2 outputbase -l eng config

  8. 验证您的成功:它将运行并生成文件outputbase.txt和outputbase.pdf。 txt文件看起来不错,可搜索的pdf在pdf查看器中看起来也可以正常工作,也就是说,您可以搜索和查找文本字符串。

  9. 希望这对其他人有帮助!

© www.soinside.com 2019 - 2024. All rights reserved.