在图片中,我把图片分成了3乘3的格子,我知道选择19乘19的会更好。 但是如果我选择太密集的网格,比如3000乘3000,检测物体会不会更差?(不关心运行时间,只关心检测的准确性)
我认为它会是因为转换网络将是空间不相关的,这意味着即使在相邻的盒子中它也不知道发生了什么,所以如果在小细节上过多具体化,将很难训练以获取对象的特征3000 x 3000 箱。
我说的对吗?如果我写错了,请帮我改正,谢谢!!!
将图像拆分为 3000*3000 块用于对象检测或任何其他任务会对准确性产生负面影响,因为信息或特征可能会在块的边缘丢失,这将导致无法捕捉到对象的细节图像,导致精度损失。以 yoloV3 为例,它在三层进行预测:13 x 13 层负责检测大对象,而 52 x 52 层检测较小的对象,26 x 26 层检测中等对象。有关详细信息,请查看此博客文章:https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b。问题是为什么需要将它分成 3000 x 3000?