具有有效滑动窗口的MNIST的CNN,可实时检测

问题描述 投票:1回答:1

我想训练一个可以在大分辨率图像上进行实时推理的CNN。 CNN必须读取由5位数字组成的手写数字。

到目前为止,我在MNIST上培训了LeNet-5,Overfeat和Yolo。

LeNet-5为我提供了很好的准确性,但是通过幼稚的滑动窗口方法,我最终在FullHD图像上获得了4000个窗口(虽然步幅很大),但速度还不够快。 (CPU上的一个窗口10ms->每个图像40sek)

因此,我研究了一些更有效的滑动窗口方式,并发现了Overfeat。它对整个图片进行卷积,并创建一个Class维输出数组[windowsX,windowsY,Classes]。这样做的好处是重叠区域不必多次计算。现在,我正尝试在苗条的帮助下训练和评估网络。

最后,对我的问题:

对于此问题,是否有更好的方法或CNN?

谢谢!

tensorflow deep-learning neural-network conv-neural-network mnist
1个回答
0
投票
上]对LeNet-5,Overfeat和Yolo进行了培训。

您可以构建CRNN模型来提高准确性。它由卷积神经网络(CNN)层,递归神经网络(RNN)层和最后的连接主义者时间分类(CTC)层组成。

CRNN Github Reference

Building a CRNN Model

© www.soinside.com 2019 - 2024. All rights reserved.