我希望我的程序输出 ALTO 文件。我拥有创建它所需的所有数据,所以我想知道是否已经存在一些可以部署的代码来创建 ALTO 文件,而不是自己编码。
我已经在寻找转换,但只能找到 OCR 输出格式之间的转换,例如 hOCR 到 ALTO、PAGE 到 ALTO 等。我正在寻找诸如原始数据到 ALTO、JSON 到 ALTO、或 csv 到 ALTO 等格式
我拥有的信息(创建 ALTO 文件所需的信息)是:
您可以使用 tesseract 创建 ALTO 文件。
命令行是:
tesseract input.png outputfilename --alto
您会发现一个
outputfilename.xml
。