发票 OCR 模型构建指南

Question

我正在做最后一年的项目，我真的需要一些建议。该项目是关于构建一个 OCR 模型来扫描发票，这些发票既有手写文本，也有计算机生成的文本。

起初，我想到使用 Tesseract，但经过一些研究后，我发现它不适用于手写文本。从我读到的内容来看，我似乎需要在手写部分使用深度学习。问题是，我对此还很陌生——我已经了解了一些关于神经网络的知识，但我仍然了解不多。

现在，我被这样的问题困扰：

如果我用手写文本训练模型，如何处理计算机生成的文本？我是否需要两种类型的单独模型，或者我可以以某种方式将它们组合起来吗？我花了两天时间阅读这篇文章，但我感到不知所措，不知道从哪里开始或如何开始。我也有焦虑症，这让我更难整理思绪并制定计划。

如果有人提供建议——关于如何开始、要检查的资源，甚至只是如何构建我的方法——我将非常感激。现在，我感到有点失落，确实需要一些帮助才能继续前进。

提前非常感谢！ 😊

Answer 1

您测试过 TrOCR 吗？如果没有，也许本指南可以帮助您： https://learnopencv.com/trocr-getting-started-with-transformer-based-ocr/

它适用于计算机生成的内容以及手写输入