我正在构建一个深度学习模型来识别图像。据我所知,数据增强(例如随机裁剪图像)将减少模型的过度拟合。然而,我不确定过度这样做是否会导致模型变得更糟糕。当然,我可以尝试一种裁剪较多的一种,一种裁剪较少的。但问题是我怎么知道问题是否出在种植的农作物数量上。
从大小为 n x n 的图像中制作大小为 m x m 的所有可能裁剪会导致模型性能更好吗?
我相信会的。我的推理是这样的:当我们训练深度学习模型时,我们会查看训练损失和验证损失,并训练模型直到其损失非常低。假设最初我们有一个包含 1000 张图像的训练集,并且模型需要 100 轮训练。现在,我们从原始火车集中裁剪 10 倍额外的图像。现在可以将每个 epoch 视为相当于之前训练数据较少的模型中的 10 个 epoch。然而,与之前模型中的 10 倍重复数据相比,这 10 个时期的每个训练数据都略有不同。当然,这会减少过度拟合。我的推理正确吗?
在这种情况下,假设我们有足够的计算资源,裁剪所有可能的较小尺寸的图像是否有任何缺点?
目前我正在考虑从 72x72 的图像中裁剪所有可能的 64x64 图像,这为每个原始图像总共提供了 64 个新图像。
我还没有看到任何涉及此问题的论文。如果有人能给我指出一个,我将不胜感激。
不,它不会损害性能,但是会增加一般过程的几毫秒时间。也许您能得到的最佳答案是尝试不同的方法。
从我的实验来看,性能增益可以忽略不计,并且可能会导致过度拟合,因为重复看到类似的图像。