为什么对象检测CNN的边界框必须与图像边界平行？

Question

观察利用深度学习的物体识别的最新进展，例如MASK-RCNN或YOLO，我注意到物体的边界框总是与图像边界平行。

这仅仅是由于提供的培训数据的符号，例如COCO，还是由于底层架构。看看Yolo或RCNN的最后一层 - 是否可以训练像图像中的物体一样旋转的矩形？

Answer 1

这些模型通常预测x和y的中心点，以及宽度和高度。这解释了一致的结果。如果训练数据提供了另一种形式的标签，那么也应该很容易学习其他边界框。