利用 AI 进行文本提取和文本识别

问题描述 投票:0回答:2

从文本开始,我希望能够识别特定信息。

示例:

输入文字:“发票号码是18”,“发票:75”,“发票编号:84”

已识别的发票号码:“18”、“75”、“84”

具体问题是我有很多包含大量此类信息的文档,我想使用一种算法来识别和提取各种类型的字段。

我想理论上我会使用某种框架/算法,输入我的所有文档并通过批准或不批准结果来训练算法,但我不知道从哪里开始。

我研究了非结构化文本的深度学习、机器学习、斯坦福 NER、命名实体识别作为一般概念等。

我希望获得一些关于从哪里开始实施此类解决方案的指导。

谢谢

python machine-learning deep-learning
2个回答
1
投票

具体取决于您的用例,我推荐的主要架构是AVEQA

NER 基本上是为了在文本中没有明确实体类型的情况下识别某个实体(例如国家)的重复(即“在南非,去年夏天比其他年份更冷”)。这不是一个坏方法,但是当您在文本中拥有显式实体时,您可以从中受益。

AVEQA 基本上就是为此用例而设计的。您提出某个问题,可能是:发票号码是哪个?模型从输入文本中提取答案。它是根据文本进行训练的,答案位于文本本身,您只需为算法提供答案的开始和结束索引位置即可。

从句子中提取发票号码的整个示例:

  • 上下文(输入文本):“发票号码是 18。”
  • 问题:“发票号码是多少?”
  • 答案起始索引:22
  • 答案结束索引:23

它还有一个名为 no-answer 的模块,以避免输入文本中出现误报,例如询问发票号码,而文本中没有发票号码。


0
投票

@bdloul 进展如何?我的处境与您所描述的类似,但即使在两年后,至少在这个主题的开源库方面似乎也没有太大进展。我阅读了大量的科学工具包,但没有一个结构似乎能为我指明如何实现文本提取的好方向。

© www.soinside.com 2019 - 2024. All rights reserved.