如果我们在 YOLO 中选择的网格框太小，检测物体会不会更差？

Question

在图片中，我把图片分成了3乘3的格子，我知道选择19乘19的会更好。但是如果我选择太密集的网格，比如3000乘3000，检测物体会不会更差？（不关心运行时间，只关心检测的准确性）

我认为它会是因为转换网络将是空间不相关的，这意味着即使在相邻的盒子中它也不知道发生了什么，所以如果在小细节上过多具体化，将很难训练以获取对象的特征3000 x 3000 箱。

我说的对吗？如果我写错了，请帮我改正，谢谢！！！

Answer 1

将图像拆分为 3000*3000 块用于对象检测或任何其他任务会对准确性产生负面影响，因为信息或特征可能会在块的边缘丢失，这将导致无法捕捉到对象的细节图像，导致精度损失。以 yoloV3 为例，它在三层进行预测：13 x 13 层负责检测大对象，而 52 x 52 层检测较小的对象，26 x 26 层检测中等对象。有关详细信息，请查看此博客文章：https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b。问题是为什么需要将它分成 3000 x 3000？

如果我们在 YOLO 中选择的网格框太小，检测物体会不会更差？

问题描述投票：0回答：1

1个回答

最新问题

如果我们在 YOLO 中选择的网格框太小，检测物体会不会更差？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1