正在运行带有openjpeg2的tesseract 4.1-无法产生pdf输出

Question

我已经在RedHat机器上安装了：

（（py36_maw）[rvp @ lib-archcoll box] $ tesseract -vtesseract 4.1.0Leptonica-1.78.0libjpeg 6b（libjpeg-turbo 1.2.90）：libpng 1.5.13：libtiff 4.0.3：zlib 1.2.7：libopenjp2 2.3.1找到上交所

根据我能找到的文档，我尝试运行以生成pdf输出：

（（py36_maw）[rvp @ lib-archcoll box] $ time tesseract test.jp2 out -l eng PDFread_params_file：无法打开PDF带Leptonica的Tesseract开源OCR引擎v4.1.0警告：无效的分辨率0 dpi。改用70。估计分辨率为275

这需要10秒钟，并产生带有精细OCR的文件out.txt，显然可以进行文本转换。

但是，它试图读取一个称为PDF的文件，但我不知道如何获得PDF输出。

我已经阅读了各种文档，最有前途的建议似乎是建议编辑配置文件，但我能猜到的唯一的文档都是相关的，通过对'tesseract 4.1 config'进行谷歌搜索，列出了许多'config'变量名（对于较旧的版本）的tesseract，但似乎都没有表明我可以指定产生pdf输出，更不用说专门针对tesseract 4.1了。

如何通过CLI调用tesseract 4.1（使用libopenjp2 2.3.1）来从jp2输入文件中生成pdf输出？额外的问题：如何在一次运行中同时生成txt和pdf输出？

罗伯特

Answer 1

经过更多的浏览和挖掘，假设读者也做了一些工作，并且知道tesseract使用的TESSDATA_PREFIX是什么，下面是对我有用的步骤：

首先从https://github.com/tesseract-ocr/tesseract/blob/master/tessdata/pdf.ttf下载pdf.ttf文件>>
将pdf.ttf复制到目录$ TESSDATA_PREFIX，并确保将变量导出到您的shell。
提示：使用命令：tesseract --print-parameters＃查找可以在自己的配置文件中使用的已定义变量名称
使用test.jp2文件转到目录，并使用以下几行创建文件配置。

tessedit_create_pdf 1写入.pdf输出文件tessedit_create txt 1写入.txt输出文件（注意：或者您也可以将配置文件放在TESSDATA_PREFIX目录中）

$ tesseract test.jp2 outputbase -l eng config

验证您的成功：它将运行并生成文件outputbase.txt和outputbase.pdf。 txt文件看起来不错，可搜索的pdf在pdf查看器中看起来也可以正常工作，也就是说，您可以搜索和查找文本字符串。

希望这对其他人有帮助！

正在运行带有openjpeg2的tesseract 4.1-无法产生pdf输出

问题描述投票：0回答：1

1个回答

最新问题

正在运行带有openjpeg2的tesseract 4.1-无法产生pdf输出

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1