OCR扫描文件并检索元数据

问题描述 投票:0回答:1

我正在使用Alfresco社区6.1。

我有成千上万张发票要扫描,对其进行OCR(识别率接近100%)并检索所需的元数据(合作伙伴,发票编号,金额,单位,货币等)。(所有这些都在Alfresco中)

基于检索到的这些元数据,我需要对发票进行一些操作(将它们移动到适当的文件夹,应用一些工作流程...)。>>

作为第一个方法:

  • 对于OCR,我使用了Alfresco Simple OCR Action,但结果不是很准确(远非100%)。

  • 为了获取结果,我将PDF OCRed转换为纯文本文件,然后使用带有document.content的javascript搜索内容。但是由于OCR不准确,所以我无法确定它是否是最佳解决方案在文档内部进行搜索。

  • 所以我的问题是:

  • 如何使OCR结果更准确?

  • 如何从发票中检索重要数据?我在这种处理中使用的方法足够好还是非常差?

  • 我正在使用pdfsandwich,而我的alfresco-global.properties

是:
ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o

ocr.extra.commands=-verbose -lang eng
ocr.server.os=linux

我正在使用Alfresco社区6.1。我有成千上万的发票要扫描,OCR(接近100%识别)并检索所需的元数据(合作伙伴,发票编号,金额,单位,货币等)。(全部...

javascript metadata ocr alfresco alfresco-share
1个回答
0
投票
恐怕这个问题不在主题范围内:https://stackoverflow.com/help/on-topic
© www.soinside.com 2019 - 2024. All rights reserved.