我正在训练具有7个编码层(conv,BN,relu,maxpool)和5个解码层(conv,BN,relu,Upsampling)的网络。
输入数据是大小为64 * 2000的矩阵,而输出是125 * 256的矩阵。网络的目的是解释传感器重新记录的原始数据,并预测相应介质中的波速。
我试图用200、2000、6000个数据集训练网络。我同时使用验证(0.1)和测试。无论我的数据集有多大或多,我都将停留在相同的验证和测试错误中,从而无法预测我期望的属性。我期望RMSE为10-25,RMSE为60-70。 (RMSE始于1540-1550,这绝对是合理的,并且最终以60到70的比例停留在任意数量的纪元或批量大小或任何优化程序中。)
[我的期望是,如果我在较小的数据集上训练网络,那么与测试数据集相比,该数据集的RMSE会大30倍。我如何解释我在这里观察到的内容?我在学习噪音吗?
这是过度拟合的情况,因为在测试阶段损失太大。它是一个简单的泛化问题。主要问题在于损失或RMSE的最小化。问题可能类似于
因此,请尝试使用优化程序,初始化程序,正则化方法,并尝试使用其他指标来判断模型。