从 tesseract 上获取 osd 输出(需要脚本值拉丁语、西里尔语...)tika-server

问题描述 投票:0回答:1

我是一名初学者,目前使用 Tika 2.9.1 服务器版本,需要元数据中 OSD 的输出,特别是脚本的值(拉丁语、西里尔语等)。所以我的问题如下: 我的 Tika 服务器版本是否集成了它?是否可以? 如果是,我该如何配置我的 Tika 服务器? 感谢您的工作(而且英语也不是我的母语)

我找到了这个主题,但我不知道如何将它集成到我的 Dockerfile 中来构建一个图像,该图像将允许我在向 tika 服务器发出请求后从元数据中的 tesseract 返回 osd 的内容。 https://github.com/apache/tika/pull/246/commits/8eb7f93324b20a641b488a4b2d64731db39e717c#diff-8e0377396ab503c58862153ead9a186b611d715d8c2e2025874ae07a4e2 7c565

dockerfile tesseract apache-tika
1个回答
0
投票

好的问题解决了,我使用自定义的 tika 配置 yml 文件来设置 psm 0,并在 rmeta 中获取 osd 脚本的内容。

© www.soinside.com 2019 - 2024. All rights reserved.