如何从现有数据创建 ALTO 文件?

问题描述 投票:0回答:1


我希望我的程序输出 ALTO 文件。我拥有创建它所需的所有数据,所以我想知道是否已经存在一些可以部署的代码来创建 ALTO 文件,而不是自己编码。

我已经在寻找转换,但只能找到 OCR 输出格式之间的转换,例如 hOCR 到 ALTO、PAGE 到 ALTO 等。我正在寻找诸如原始数据到 ALTO、JSON 到 ALTO、或 csv 到 ALTO 等格式

我拥有的信息(创建 ALTO 文件所需的信息)是:

  • 页面上的所有单词,按文本块和文本行分割,每个单词都有相应的 ID。
  • 文字内容
  • 单词、线条和块的坐标(hpos、vpos、宽度和高度)
  • 每个单词的单词置信度
json xml ocr alto
1个回答
0
投票

您可以使用 tesseract 创建 ALTO 文件。

命令行是:

tesseract input.png outputfilename --alto

您会发现一个

 outputfilename.xml

© www.soinside.com 2019 - 2024. All rights reserved.