常用的性能度量指标有:精确率、召回率、F1、TPR、FPR。
预测为真 | 预测为假 | |
---|---|---|
真实为真 | TP(true positive) | FN(false negative) |
真实为假 | FP(false positive) | TN(true negative) |
精确率Precision=TP/(TP+FP)
召回率Recall=TP/(TP+FN)
真正例率即为正例被判断为正例的概率TPR=TP/(TP+FN)
假正例率即为反例被判断为正例的概率FPR=FP/(TN+FP)
精确率又称查准率,顾名思义适用于对准确率较高的应用,例如网页检索与推荐。召回率又称查全率,适用于检测信贷风险、逃犯信息等。精确率与召回率是一对矛盾的度量,所以需要找一个平衡点,往往使用F1是精确率与召回率的调和平均值:
(1) 错误率和准确率
错误率:
准确率:acc=1-e
(2)AUC与ROC曲线
对于0、1分类问题,一些分类器得到的结果并不是0或1,如神经网络得到的是0.5、0.6等,此时就需要一个阈值cutoff,那么小于阈值的归为0,大于的归为1,可以得到一个分类结果。
ROC曲线(Receiver Operational Characteristic Curve)是以False Positive Rate为横坐标,True Postive Rate为纵坐标绘制的曲线。
曲线的点表示了在敏感度和特殊性之间的平衡,例如越往左,也就是假阳性越小,则真阳性也越小。曲线下面的面积越大,则表示该方法越有利于区分两种类别。
AUC即为ROC曲线所覆盖的区域面积。
人工智能更多面试问题关注公众号:我们都是码农 (allmanong),或者扫描下方二维码!
来源:oschina
链接:https://my.oschina.net/u/4275644/blog/3220627