ROC曲线(Receiver Operating Characteristic Curve)

分类模型尝试将各个实例（instance）划归到某个特定的类，而分类模型的结果一般是实数值，如逻辑回归，其结果是从0到1的实数值。这里就涉及到如何确定阈值（threshold value）,使得模型结果大于这个值，划为一类，小于这个值，划归为另一类。

考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预测成负类，称之为真负类（True positive）,正类被预测成负类则为假负类（false negative）。

列联表如下表所示，1代表正类，0代表负类。

		预测
		1	0	合计
实际	1	True Positive（TP）	False Negative（FN）	Actual Positive(TP+FN)
实际	0	False Positive（FP)	True Negative(TN)	Actual Negative(FP+TN)
合计		Predicted Positive(TP+FP)	Predicted Negative(FN+TN)	TP+FP+FN+TN

从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为TPR=TP / (TP + FN)，刻画的是分类器所识别出的正实例占所有正实例的比例。另外一个是负正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)，计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率（True Negative Rate，TNR），也称为specificity,计算公式为TNR=TN / (FP + TN) = 1 − FPR。

在一个二分类模型中，对于所得到的连续结果，假设已确定一个阀值，比如说 0.6，大于这个值的实例划归为正类，小于这个值则划到负类中。如果减小阀值，减到0.5，固然能识别出更多的正类，也就是提高了识别出的正例占所有正例的比类，即TPR,但同时也将更多的负实例当作了正实例，即提高了FPR。为了形象化这一变化，在此引入ROC。

Receiver Operating Characteristic,翻译为"接受者操作特性曲线"，够拗口的。曲线是由两个变量的组合，1-specificity和 Sensitivity. 由于1-specificity=FPR，即负正类率。Sensitivity即是真正类率，True positive rate,反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价(costs)对收益(benefits)。

参考wiki:http://en.wikipedia.org/wiki/Receiver_operating_characteristic

转自:http://blog.sciencenet.cn/blog-636598-550801.html

来源：https://www.cnblogs.com/ywl925/p/3386882.html

标签

roc

negative