roc曲线

AUC(Area under Curve Roc曲线下面积)计算方法总结

时光总嘲笑我的痴心妄想 提交于 2020-03-24 16:41:11
3 月,跳不动了?>>> 转载至 http://blog.csdn.net/pzy20062141/article/details/48711355 一、roc曲线 1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 横轴 :负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity) 纵轴 :真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况. (1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP) (2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN) (3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP) (4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN) TP :正确的肯定数目 FN :漏报,没有找到正确匹配的数目 FP :误报,没有的匹配不正确 TN :正确拒绝的非匹配数目 列联表如下,1代表正类

AUC计算方法总结

十年热恋 提交于 2020-03-24 16:24:07
3 月,跳不动了?>>> 一、roc曲线 1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 横轴 :负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity) 纵轴 :真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况. (1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP) (2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN) (3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP) (4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN) TP :正确的肯定数目 FN :漏报,没有找到正确匹配的数目 FP :误报,没有的匹配不正确 TN :正确拒绝的非匹配数目 列联表如下,1代表正类,0代表负类: 由上表可得出横,纵轴的计算公式: (1)真正类率(True Postive Rate)TPR: TP/(TP+FN

1.机器学习之模型评估详解

不问归期 提交于 2020-03-02 02:07:13
模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。常用的聚类模型评价指标有ARI评价法(兰德系数)、AMI评价法(互信息)、V-measure评分、FMI评价法和轮廓系数等。常用的分类模型评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1 Value)、ROC和AUC等。常用的回归模型评价指标有平均绝对误差、均方根误差、中值绝对误差和可解释方差值等。 线性回归解决的是连续型数值的预测问题,例如预测房价,产品销量等。 逻辑回归解决的是分类问题,从分类数量上看,有二项分类和多项分类。 sklearn库的metrics模块提供各种评估方法,包括分类评估、回归评估、聚类评估和交叉验证等,评估分类是判断预测值时否很好的与实际标记值相匹配。正确的鉴别出正样本(True Positives)或者负样本(True Negatives)都是True。同理,错误的判断正样本(False Positive,即一类错误)或者负样本(False Negative,即二类错误)。 注意:True和False是对于评价预测结果而言,也就是评价预测结果是正确的(True)还是错误的(False)。而Positive和Negative则是样本分类的标记。 metrics模块分类度量有6种方法,如下表所示: 指标 描述

KS曲线和ROC曲线(二)

为君一笑 提交于 2019-12-25 15:44:12
上一篇文章我们说了 KS曲线和ROC曲线 的理论知识,这篇文章我们来实际操作一下。 import pandas as pd from sklearn.metrics import roc_curve import matplotlib.pyplot as plt ### 构造数据 data = [[1,1,0,1,0,0],[0.9,0.8,0.5,0.6,0.2,0.6]] ### 转化喂dataframe,其实这步是多余的。 df = pd.DataFrame(columns =['type','prob']) ### 数据标签 df['type'] = data[0] ### 数据标签为1的概率 df['prob'] = data[1] ### 使用roc_curve函数获取fpr,tpr和threshold列 fpr, tpr, thresh = roc_curve(df.type, df.prob) ### 画tpr曲线 plt.plot(tpr, label='TPR') ### 画fpr曲线 plt.plot(fpr, label='FPR') ### 画ks曲线 plt.plot(tpr-fpr, label='KS') plt.xlabel('thresholds') plt.legend() plt.show() ### 画roc曲线 plt.plot(fpr

AUC(Area under Curve Roc曲线下面积)

和自甴很熟 提交于 2019-12-21 08:27:44
一、roc曲线 1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity) 纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况. (1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP) (2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN) (3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP) (4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN) TP:正确的肯定数目 FN:漏报,没有找到正确匹配的数目 FP:误报,没有的匹配不正确 TN:正确拒绝的非匹配数目 列联表如下,1代表正类,0代表负类: 由上表可得出横,纵轴的计算公式: (1)真正类率(True Postive Rate)TPR: TP/(TP+FN)

(原+转)ROC曲线

与世无争的帅哥 提交于 2019-12-20 04:35:12
转自: http://baike.baidu.com/link?url=_H9luL0R0BSz8Lz7aY1Q_hew3JF1w-Zj_a51ggHFB_VYQljACH01pSU_VJtSGrGJOR1h_du8O0S2ADOzzq9Nqq 受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为 感受性 曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的 感受性 ,它们都是对同一 信号刺激 的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚报概率为 横轴 ,击中概率为纵轴所组成的 坐标 图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。 ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此,ROC曲线评价方法适用的范围更为广泛。[1] 考虑一个二分问题,即将实例分成正类

AUC计算方法总结

梦想与她 提交于 2019-12-20 04:34:44
一、roc曲线 1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 横轴 :负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity) 纵轴 :真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况. (1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP) (2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN) (3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP) (4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN) TP :正确的肯定数目 FN :漏报,没有找到正确匹配的数目 FP :误报,没有的匹配不正确 TN :正确拒绝的非匹配数目 列联表如下,1代表正类,0代表负类: 由上表可得出横,纵轴的计算公式: (1)真正类率(True Postive Rate)TPR: TP/(TP+FN) ,代表分类器预测的

ROC曲线-阈值评价标准

微笑、不失礼 提交于 2019-12-20 04:34:12
 ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映 敏感性和特异性连续变量的综合指标 ,是用构图法揭示 敏感性和特异性的相互关系 , 它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性 ,再 以敏感性为纵坐标 、 (1-特异性)为横坐标 绘制成曲线, 曲线下面积越大,诊断准确性越高 。在ROC曲线上,最靠近坐标图 左上方的点 为敏感性和特异性均较高的临界值。 ROC曲线的例子   考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false negative)。 TP:正确肯定的数目; FN: 漏报 ,没有正确找到的匹配的数目; FP: 误报 ,给出的匹配是不正确的; TN:正确拒绝的非匹配对数; 列联表如下表所示,1代表正类,0代表负类。    预测 1 0 合计 实际 1 True Positive(TP) False Negative

模型评价指标:AUC

一笑奈何 提交于 2019-12-04 10:57:46
参考链接: https://www.iteye.com/blog/lps-683-2387643 问题: AUC是什么 AUC能拿来干什么 AUC如何求解(深入理解AUC) AUC是什么 混淆矩阵(Confusion matrix) 混淆矩阵是理解大多数评价指标的基础,毫无疑问也是理解AUC的基础。丰富的资料介绍着混淆矩阵的概念,这里用一个经典图来解释混淆矩阵是什么。 显然,混淆矩阵包含四部分的信息: 1. True negative(TN),称为真阴率,表明实际是负样本预测成负样本的样本数 2. False positive(FP),称为假阳率,表明实际是负样本预测成正样本的样本数 3. False negative(FN),称为假阴率,表明实际是正样本预测成负样本的样本数 4. True positive(TP),称为真阳率,表明实际是正样本预测成正样本的样本数 对照着混淆矩阵,很容易就能把关系、概念理清楚,但是久而久之,也很容易忘记概念。不妨我们按照位置前后分为两部分记忆,前面的部分是True/False表示真假,即代表着预测的正确性,后面的部分是positive/negative表示正负样本,即代表着预测的结果,所以,混淆矩阵即可表示为 正确性-预测结果 的集合。现在我们再来看上述四个部分的概念(均代表样本数,下述省略): 1. TN,预测是负样本,预测对了 2. FP

机器学习可视化:模型评估和参数调优

被刻印的时光 ゝ 提交于 2019-12-03 17:30:20
本篇文章详细阐述机器学习模型评估和参数调优。将主要围绕两个问题来阐述: “知其所以然”:当你选择的一个机器学习模型运行时,你要知道它是如何工作的; “青出于蓝”:更进一步,你得知道如何让此机器学习模型工作的更优。 模型评估的方法 一般情况来说,F1评分或者R平方(R-Squared value)等数值评分可以告诉我们训练的机器学习模型的好坏。也有其它许多度量方式来评估拟合模型。 你应该猜出来,我将提出使用可视化的方法结合数值评分来更直观的评判机器学习模型。接下来的几个部分将分享一些有用的工具。 首先想声明的,单单一个评分或者一条线,是无法完全评估一个机器学习模型。偏离真实场景来评估机器学习模型('good' or 'bad')都是“耍流氓”。某个机器学习模型若可“驾驭”小样本数据集生成最多预测模型(即,命中更多预测数据集)。如果一个拟合模型比其它拟合过的模型形式或者你昨天的预测模型能够得到更好的结果,那即是好('good')。 下面是一些标准指标: confusion_matrix , mean_squared_error , r2_score ,这些可以用来评判分类器或者回归的好坏。表格中给出的是 Scikit-Learn 中的函数以及描述: 评估分类模型 : 指标 描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics