我想训练一个可以在大分辨率图像上进行实时推理的CNN。 CNN必须读取由5位数字组成的手写数字。
到目前为止,我在MNIST上培训了LeNet-5,Overfeat和Yolo。
LeNet-5为我提供了很好的准确性,但是通过幼稚的滑动窗口方法,我最终在FullHD图像上获得了4000个窗口(虽然步幅很大),但速度还不够快。 (CPU上的一个窗口10ms->每个图像40sek)
因此,我研究了一些更有效的滑动窗口方式,并发现了Overfeat。它对整个图片进行卷积,并创建一个Class维输出数组[windowsX,windowsY,Classes]。这样做的好处是重叠区域不必多次计算。现在,我正尝试在苗条的帮助下训练和评估网络。
最后,对我的问题:
对于此问题,是否有更好的方法或CNN?
谢谢!
您可以构建CRNN模型来提高准确性。它由卷积神经网络(CNN)层,递归神经网络(RNN)层和最后的连接主义者时间分类(CTC)层组成。