学习笔记2 ROC | 易学教程

ROC：

都只是从维基百科总结出来的而已

分类模型：

真阳性（TP）：诊断为有，实际上也有高血压。
伪阳性（FP）：诊断为有，实际却没有高血压。
真阴性（TN）：诊断为没有，实际上也没有高血压。
伪阴性（FN）：诊断为没有，实际却有高血压。

这四种情况可以化成一个混淆矩阵：
在这里插入图片描述

ROC空间：

ROC空间将伪阳性率（FPR）定义为 X 轴，真阳性率（TPR）定义为 Y 轴。

TPR：在所有实际为阳性的样本中，被正确地判断为阳性之比率。
TPR=TP/(TP+FN)
FPR：在所有实际为阴性的样本中，被错误地判断为阳性之比率。
FPR=FP/(FP+TN)
给定一个二元分类模型和它的阈值，就能从所有样本的（阳性／阴性）真实值和预测值计算出一个 (X=FPR, Y=TPR) 座标点。
在这里插入图片描述

ROC曲线

上述ROC空间里的单点，是给定分类模型且给定阈值后得出的。但同一个二元分类模型的阈值可能设定为高或低，每种阈值的设定会得出不同的FPR和TPR。

将同一模型每个阈值的 (FPR, TPR) 座标都画在ROC空间里，就成为特定模型的ROC曲线。

当阈值设定为最高时，亦即所有样本都被预测为阴性，没有样本被预测为阳性，此时在伪阳性率 FPR = FP / ( FP + TN ) 算式中的 FP = 0，所以 FPR = 0%。同时在真阳性率（TPR）算式中， TPR = TP / ( TP + FN ) 算式中的 TP = 0，所以 TPR = 0%
→ 当阈值设定为最高时，必得出ROC座标系左下角的点 (0, 0)。
当阈值设定为最低时，亦即所有样本都被预测为阳性，没有样本被预测为阴性，此时在伪阳性率FPR = FP / ( FP + TN ) 算式中的 TN = 0，所以 FPR = 100%。同时在真阳性率 TPR = TP / ( TP + FN ) 算式中的 FN = 0，所以 TPR=100%
→ 当阈值设定为最低时，必得出ROC座标系右上角的点 (1, 1)。
因为TP、FP、TN、FN都是累积次数，TN和FN随着阈值调低而减少（或持平），TP和FP随着阈值调低而增加（或持平），所以FPR和TPR皆必随着阈值调低而增加（或持平）。
→ 随着阈值调低，ROC点往右上（或右／或上）移动，或不动；但绝不会往左下(或左／或下)移动。

曲线下的面积（AUC(Area under the Curve of ROC)）

若随机抽取一个阳性样本和一个阴性样本，分类器正确判断阳性样本的值高于阴性样本之几率 {\displaystyle =AUC}{\displaystyle =AUC}[1]。
简单说：AUC值越大的分类器，正确率越高。

FPROC 就是横轴为FPR的时候的ROC

来源：CSDN

作者：qq_39029148

链接：https://blog.csdn.net/qq_39029148/article/details/103923944

标签

roc

高血压