具有有效滑动窗口的MNIST的CNN，可实时检测

Question

我想训练一个可以在大分辨率图像上进行实时推理的CNN。 CNN必须读取由5位数字组成的手写数字。

到目前为止，我在MNIST上培训了LeNet-5，Overfeat和Yolo。

LeNet-5为我提供了很好的准确性，但是通过幼稚的滑动窗口方法，我最终在FullHD图像上获得了4000个窗口（虽然步幅很大），但速度还不够快。（CPU上的一个窗口10ms->每个图像40sek）

因此，我研究了一些更有效的滑动窗口方式，并发现了Overfeat。它对整个图片进行卷积，并创建一个Class维输出数组[windowsX，windowsY，Classes]。这样做的好处是重叠区域不必多次计算。现在，我正尝试在苗条的帮助下训练和评估网络。

最后，对我的问题：

对于此问题，是否有更好的方法或CNN？

谢谢！

Answer 1

上]对LeNet-5，Overfeat和Yolo进行了培训。

您可以构建CRNN模型来提高准确性。它由卷积神经网络（CNN）层，递归神经网络（RNN）层和最后的连接主义者时间分类（CTC）层组成。