利用 AI 进行文本提取和文本识别

Question

从文本开始，我希望能够识别特定信息。

示例：

输入文字：“发票号码是18”，“发票：75”，“发票编号：84”

已识别的发票号码：“18”、“75”、“84”

具体问题是我有很多包含大量此类信息的文档，我想使用一种算法来识别和提取各种类型的字段。

我想理论上我会使用某种框架/算法，输入我的所有文档并通过批准或不批准结果来训练算法，但我不知道从哪里开始。

我研究了非结构化文本的深度学习、机器学习、斯坦福 NER、命名实体识别作为一般概念等。

我希望获得一些关于从哪里开始实施此类解决方案的指导。

谢谢

Answer 1

具体取决于您的用例，我推荐的主要架构是AVEQA。

NER 基本上是为了在文本中没有明确实体类型的情况下识别某个实体（例如国家）的重复（即“在南非，去年夏天比其他年份更冷”）。这不是一个坏方法，但是当您在文本中拥有显式实体时，您可以从中受益。

AVEQA 基本上就是为此用例而设计的。您提出某个问题，可能是：发票号码是哪个？模型从输入文本中提取答案。它是根据文本进行训练的，答案位于文本本身，您只需为算法提供答案的开始和结束索引位置即可。

从句子中提取发票号码的整个示例：

它还有一个名为 no-answer 的模块，以避免输入文本中出现误报，例如询问发票号码，而文本中没有发票号码。

Answer 2

@bdloul 进展如何？我的处境与您所描述的类似，但即使在两年后，至少在这个主题的开源库方面似乎也没有太大进展。我阅读了大量的科学工具包，但没有一个结构似乎能为我指明如何实现文本提取的好方向。