是否可以对PDF进行OCR,然后输出PDF中的文本(图像下的文本)。而不是单独的文件?
是的,有可能。
首先使用gcv2hocr将google cloud vision响应转换为hocr文件。
gcv2hocr test.jpg.json output.hocr
然后使用hocr-tools将hocr数据拼接到pdf文件。
hocr-pdf --savefile out.pdf <imgdir>