我对 Yolo 的工作原理有点困惑。 他们在论文中说:
置信度预测代表了之间的IOU 预测框和任何地面实况框。”
但是我们如何获得地面真相框呢?假设我在未标记的图像上使用我的 Yolo 网络(已经训练过)。那我的信心是什么?
但是我们如何获得真实数据框呢?
您似乎对训练数据到底是什么以及 YOLO 的输出或预测是什么感到困惑。
训练数据是一个带有类标签的边界框。这被称为“地面实况框”,
b = [bx, by, bh, bw, class_name (or number)]
,其中bx, by
是带注释的边界框的中点,bh, bw
是框的高度和宽度。
输出或预测是图像
b
的边界框 c
以及类 i
。
形式上:y = [ pl, bx, by, bh, bw, cn ]
,其中bx, by
是带注释的边界框的中点。 bh, bw
是盒子的高度和宽度,pc
- “盒子”c
中具有类 b
的概率。
假设我在未标记的图像上使用我的 Yolo 网络(已经训练过)。那我的信心是什么?
当您说您有一个预先训练的模型(您指的是已经训练过的模型)时,您的网络已经“知道”某些对象类的边界框,并且它尝试近似该对象在新图像中的位置,但在这样做时您的网络可能会在其他地方预测边界框而不是它应该在的地方。那么你如何计算“其他地方”的盒子多少钱呢?借条来救援! IOU(并集交集)的作用是,它为您提供重叠面积与并集面积的分数。
IOU = Area of Overlap / Area of Union
虽然它很少是完美的或 1。它有点接近,IOU 的值越小,YOLO 参考地面实况预测边界框的效果就越差。 IOU 分数为 1 意味着参考地面实况准确或非常自信地预测了边界框。
我想我知道答案 猜测YOLO在两种情况下使用IoU来达到不同的目标 1-在训练时评估预测 2-当您使用已经训练好的模型时,有时您会得到同一对象的多个框。我红色的是这是YOLO解决这个问题的方式(不确定这是否是非最大抑制的一部分)