我正在使用Alfresco社区6.1。
我有成千上万张发票要扫描,对其进行OCR(识别率接近100%)并检索所需的元数据(合作伙伴,发票编号,金额,单位,货币等)。(所有这些都在Alfresco中)
基于检索到的这些元数据,我需要对发票进行一些操作(将它们移动到适当的文件夹,应用一些工作流程...)。>>
作为第一个方法:
对于OCR,我使用了Alfresco Simple OCR Action,但结果不是很准确(远非100%)。
为了获取结果,我将PDF OCRed转换为纯文本文件,然后使用带有document.content的javascript搜索内容。但是由于OCR不准确,所以我无法确定它是否是最佳解决方案在文档内部进行搜索。
所以我的问题是:
如何使OCR结果更准确?
如何从发票中检索重要数据?我在这种处理中使用的方法足够好还是非常差?
我正在使用pdfsandwich,而我的alfresco-global.properties
ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang eng
ocr.server.os=linux
我正在使用Alfresco社区6.1。我有成千上万的发票要扫描,OCR(接近100%识别)并检索所需的元数据(合作伙伴,发票编号,金额,单位,货币等)。(全部...