在 F1 分数和精确召回曲线下面积 (PR AUC) 之间选择正确的评估指标

问题描述 投票:0回答:1

我们目前正在致力于从卫星图像中检测特定物体(例如家禽养殖场、医院)。我们已将该问题建模为二值图像分类任务(即将图像分类为农场/非农场),并使用梯度加权类激活图 (CAM) 来进一步定位图像内的对象。我们这样做是为了避免手动注释对象周围的边界框的高成本,因为获取二进制标签要便宜得多。到目前为止,CAM 非常适合本地化对象,无需边界框注释。

对于图像分类任务,我们首先优化 F1 分数,概率阈值设置为默认值 0.5。但我们后来意识到,由于最佳阈值取决于最终用户对误报和漏报的容忍度,因此优化精确率-召回率曲线下的面积 (PR AUC) 实际上可能会更好。当我们集成人机交互验证时,我们目前正在开发一个用户界面,用户可以根据他们有多少预测资源在现场验证来动态更改阈值。

目前,可调整阈值的范围是从 0.5 到 1.0,因为我们只为正预测生成 CAM,即正类别的概率 > 0.5 的预测。为所有预测生成 CAM 似乎没有意义(即使是那些对正类的置信度分数较低的预测),因为它的计算量很大,并且不太可能产生有意义的输出,因为这些低概率图像可能不包含该对象.

有了这个,优化 PR AUC 是否仍然有意义,还是应该继续优化 F1 分数?我们是否应该根据我们独特的用例生成自己的自定义性能指标?谢谢!

python threshold image-classification precision-recall
1个回答
0
投票

这是一个有趣的用例。支持您找到适合预算的方向 - 让我们看看它是否能长期坚持。

现在,我认为最好坚持使用 AUC PR。尽管它不是一个完美的指标,但在您的情况下它比 F 分数更好,因为“阈值哲学”已经内置在其中。构建自己的评估逻辑也是可能的,但由于缺乏上下文,我不能说更多。

如果您想更多地探索指标本身,请查看此处此处。这些页面非常适合深入探索 PR 曲线/AUC PR 和 F 分数概念。

© www.soinside.com 2019 - 2024. All rights reserved.