五分钟秒懂机器学习混淆矩阵、ROC和AUC
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是 机器学习专题的第18篇 文章,我们来看看机器学习领域当中,非常重要的其他几个指标。 混淆矩阵 在上一篇文章当中,我们在介绍召回率、准确率这些概念之前,先讲了 TP、FP、FN、和FP 这几个值。我们再来简单地回顾一下,我们不能死记硬背这几个指标,否则很容易搞错,并且还容易搞混。我们需要从英文入手来理解,其中的T表示真,可以理解成 预测正确 ,F表示假,也就是 预测错误 。而P和N表示positive和negative,也就是阴和阳,或者是0和1,也就是两个不同的类别。 既然是两个类别,那么显然说明了我们的这些指标针对的是二分类的场景,也是机器学习当中最常见的场景。 混淆矩阵其实本质上就是将这四个值展示在一个表格当中,这样方便我们观察结果做出分析。 我们举个例子: 假设某一个模型的预测结果的混淆矩阵是这样,我们从上面展示的数据当中很容易就分析出,我们 预测的错误主要发生在49这一格 ,也就是假阴性这一格。也就是说模型将大量的阳性样本预测成了阴性,说明模型的阈值设置得过高,我们可以尝试降低阈值来提升扩大召回。 反之,如果假阳性的样本太多,则说明模型的阈值过低,将大量阴性的样本预测成了阳性。我们想要提升模型的效果,可以考虑提升一下模型分类的阈值。 那 如果假阳和假阴都很多该怎么办? 这种情况也很多