我正在做最后一年的项目,我真的需要一些建议。该项目是关于构建一个 OCR 模型来扫描发票,这些发票既有手写文本,也有计算机生成的文本。
起初,我想到使用 Tesseract,但经过一些研究后,我发现它不适用于手写文本。从我读到的内容来看,我似乎需要在手写部分使用深度学习。问题是,我对此还很陌生——我已经了解了一些关于神经网络的知识,但我仍然了解不多。
现在,我被这样的问题困扰:
如果我用手写文本训练模型,如何处理计算机生成的文本? 我是否需要两种类型的单独模型,或者我可以以某种方式将它们组合起来吗? 我花了两天时间阅读这篇文章,但我感到不知所措,不知道从哪里开始或如何开始。我也有焦虑症,这让我更难整理思绪并制定计划。
如果有人提供建议——关于如何开始、要检查的资源,甚至只是如何构建我的方法——我将非常感激。现在,我感到有点失落,确实需要一些帮助才能继续前进。
提前非常感谢! 😊
您测试过 TrOCR 吗?如果没有,也许本指南可以帮助您: https://learnopencv.com/trocr-getting-started-with-transformer-based-ocr/
它适用于计算机生成的内容以及手写输入