让我们先了解一些基础知识,然后再公开该图所传达的相关信息。
ROC
曲线使您可以通过分类器衡量两个类的可分离程度,即模型可以区分两个类的程度。您看到的曲线代表模型在不同阈值下获得的重复的TPR
和FPR
(在您的情况下为百分比)。
理解角色阈值在这里扮演重要角色,因此这是一种直觉。为了计算ROC曲线,我们需要模型输出的概率。这是因为将针对不同的阈值计算按TPR
vs FPR
衡量的分类优度。如果您认为例如模型输出的0.8
概率将被分类为具有1
阈值的0.5
,而不是具有0
阈值的0.85
,则这似乎很明显。这将使您在特定分类器的曲线中具有不同的point。
分类器的ROC
曲线将通过在不同的阈值上重复上述操作(即计算TPR
和FPR
)获得,直到获得描述分类器的一般行为的行。
但是为什么我需要知道它在
thresholds!=0.5
上的分类情况如何?您可能会问...
例如,这会告诉您分类器在TPR
可能会或多或少灵活的情况下的预测效果如何。在那种情况下,您可能想要比较阈值不同的模型的响应,这些响应导致较低的FPR
(以较低的TPR
和AUC
分数表示)。
在通常情况下,您想以balanced方式最小化两个类别的错误分类,最佳阈值将是靠近左上角的那个,或者换句话说,是导致与对角线的距离更大(对角线仅代表分类器不知道如何区分两个类的点)。
但是如上所述,ROC
曲线如此有用的原因在于,它告诉您对模型进行分类的好处取决于要确定优先级的指标
因此,可以从ROC
曲线中获得的信息如下:
因此,从本质上讲,我们可以将其视为分类器在不同情况下表现良好的picture
本质上,ROC曲线是一种可视化不同决策阈值的混淆矩阵的方法。虽然只能通过考虑错误分类的相应结果来找到特定应用程序的最佳模型,但是具有较大AUC的ROC曲线通常是更好的选择。在您的情况下,这意味着“蓝色”模型将是最佳选择。要了解更多直观信息,请查看一些youtube视频,例如:https://www.youtube.com/watch?v=4jRBRDbJemM