我正在尝试了解YOLOv3的工作方式。而且这件事仍然让我感到困惑:YOLO可以确定边界框(坐标和尺寸),但是为什么它不直接输出这些值,而不是使用它们来调整锚框?
大多数对象检测算法与固定锚相比,计算边界框的偏移量(x,y,宽度,高度)。>
通常生成锚以跟随固定网格:对于网格上的每个位置,都会创建一组不同长宽比和不同区域的锚。
对于学习算法而言,从固定锚点输出一个偏移量要容易得多,它可以从中推断出整体坐标,而不是尝试直接找到整体坐标,因为它是局部且位置不变的特征。
这意味着,如果在图片的左上方有一条带有偏心边界框的狗,则要求算法输出偏移量,就像该狗在图片的右下方一样,这使得它具有强大的移动能力,并且不需要学习图像中对象的全局位置。