TPR

五分钟秒懂机器学习混淆矩阵、ROC和AUC

蹲街弑〆低调 提交于 2020-04-30 12:38:38
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是 机器学习专题的第18篇 文章,我们来看看机器学习领域当中,非常重要的其他几个指标。 混淆矩阵 在上一篇文章当中,我们在介绍召回率、准确率这些概念之前,先讲了 TP、FP、FN、和FP 这几个值。我们再来简单地回顾一下,我们不能死记硬背这几个指标,否则很容易搞错,并且还容易搞混。我们需要从英文入手来理解,其中的T表示真,可以理解成 预测正确 ,F表示假,也就是 预测错误 。而P和N表示positive和negative,也就是阴和阳,或者是0和1,也就是两个不同的类别。 既然是两个类别,那么显然说明了我们的这些指标针对的是二分类的场景,也是机器学习当中最常见的场景。 混淆矩阵其实本质上就是将这四个值展示在一个表格当中,这样方便我们观察结果做出分析。 我们举个例子: 假设某一个模型的预测结果的混淆矩阵是这样,我们从上面展示的数据当中很容易就分析出,我们 预测的错误主要发生在49这一格 ,也就是假阴性这一格。也就是说模型将大量的阳性样本预测成了阴性,说明模型的阈值设置得过高,我们可以尝试降低阈值来提升扩大召回。 反之,如果假阳性的样本太多,则说明模型的阈值过低,将大量阴性的样本预测成了阳性。我们想要提升模型的效果,可以考虑提升一下模型分类的阈值。 那 如果假阳和假阴都很多该怎么办? 这种情况也很多

总结《精通数据科学》机器学习思想,常见误区,二元分类问题

天大地大妈咪最大 提交于 2020-04-29 18:00:17
1. 看待机器学习问题的两个角度 2.假设检验的思路 3.模型陷阱与模型幻觉 4.二元分类的原理 5.ROC与AUC曲线 1. 看待机器学习问题的两个角度 在看待一个数据问题时,我们需要从两个角度去看待问题,一是从机器学习角度去看待问题,另一个就是从概率的角度看待问题,这样我觉得可以解释很多初学者在学习机器学习是会感到混乱的地方。 从机器学习的角度来看,主要有以下步骤:   1.确定场景类型。也就是说判断我们的输入输出。通常输入便是我们的实例,输出是我们的label。   2. 定义损失函数。也就是我们说的目标函数[1],我们看待一个模型,我们一定要有一个评价指标,这个评价指标便是我们的损失函数,我们可以通过损失函数让我们的模型认识到什么是正确的,什么是错误的。   3.提取特征。这也是非常重要的一步,我们知道,如果我们的数据量非常多,维数爆炸,便会带来计算量过大,扰动太多,编程难度过大,最终模型性能不佳等问题,因此,进行数据预处理--提取特征便是解决这一问题的关键。通过提取特征,可以做到优化数据结构,减小数据量,提高模型性能。   4. 确定模型的形式,同时估计参数。要求我们先预估这个问题的大致模型,利用损失函数最小化确定我们的模型的各个参数。   5. 评估模型效果,我们生成模型后我们需要通过测试集来判断我们的模型的效果,才能检验我们的模型是否为一个好的模型。

分类算法中的ROC与PR指标

时间秒杀一切 提交于 2020-04-25 05:44:55
做过图像识别、机器学习或者信息检索相关研究的人都知道,论文的实验部分都要和别人的算法比一比。可怎么比,人多嘴杂,我说我的方法好,你说你的方法好,各做各的总是不行——没规矩不成方圆。于是慢慢的大家就形成了一种约定,用ROC曲线和PR曲线来衡量算法的优劣。关于ROC曲线和PR曲线的详细介绍可参考资料: ROC Analysis and the ROC Convex Hull Tom Fawcett, An introduction to ROC analysis Jesse Davis,Mark Goadrich. The Relationship Between Precision-Recall and ROC Curves. ,还有一份与这篇文章对应的 PPT讲稿 有这3份资料足以,应用分析和理论分析都讲得很不错。 基本概念 True Positives,TP:预测为正样本,实际也为正样本的特征数 False Positives,FP:预测为正样本,实际为负样本的特征数(错预测为正样本了,所以叫False) True Negatives,TN:预测为负样本,实际也为负样本的特征数 False Negatives,FN:预测为负样本,实际为正样本的特征数(错预测为负样本了,所以叫False) 接着往下做做小学的计算题: TP+FP+FN+FN:特征总数(样本总数) TP+FN

教你用Python解决非平衡数据问题(附代码)

限于喜欢 提交于 2020-04-09 18:28:47
本文为你分享数据挖掘中常见的非平衡数据的处理,内容涉及到非平衡数据的解决方案和原理,以及如何使用Python这个强大的工具实现平衡的转换。 后台回复“不平衡”获取数据及代码~ 前言 好久没有更新自己写的文章了,相信很多读者都会比较失望,甚至取关了吧,在此向各位网友道个歉。文章未及时更新的主要原因是目前在写Python和R语言相关的书籍,激动的是基于Python的数据分析与挖掘的书已经编写完毕,后期还继续书写R语言相关的内容。希望得到网友的理解,为晚来的新文章再次表示抱歉。 本次分享的主题是关于数据挖掘中常见的非平衡数据的处理,内容涉及到非平衡数据的解决方案和原理,以及如何使用Python这个强大的工具实现平衡的转换。 SMOTE算法的介绍 在实际应用中,读者可能会碰到一种比较头疼的问题,那就是分类问题中类别型的因变量可能存在严重的偏倚,即类别之间的比例严重失调。如欺诈问题中,欺诈类观测在样本集中毕竟占少数;客户流失问题中,非忠实的客户往往也是占很少一部分;在某营销活动的响应问题中,真正参与活动的客户也同样只是少部分。 如果数据存在严重的不平衡,预测得出的结论往往也是有偏的,即分类结果会偏向于较多观测的类。对于这种问题该如何处理呢?最简单粗暴的办法就是构造1:1的数据,要么将多的那一类砍掉一部分(即欠采样),要么将少的那一类进行Bootstrap抽样(即过采样)。但这样做会存在问题

scikit_learn分类器详解

╄→гoц情女王★ 提交于 2020-04-08 18:01:13
1 分类 分类是将事物按特性进行分类,例如将手写数字图片分类为对应的数字。 1.1 MINIST数字图片集分类 MINST就是一个70000张规格较小的手写数字图片,如何将他们分类为对应的数字?MINIST这个数据集是由矩阵数组结构,70000个矩阵,每个矩阵28*28=784,每个点代表一个像素值,取值范围在0-256之间。 (1 )获取数据集 Scikit-Learn 提供了许多辅助函数,以便于下载流行的数据集。 from sklearn.datasets import fetch_mldata >>> mnist = fetch_mldata('MNIST original')#获取数字数据集 >>> mnist {'COL_NAMES': ['label', 'data'], 'DESCR': 'mldata.org dataset: mnist-original', 'data': array([[0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], ..., [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0]], dtype=uint8), 'target': array([ 0.,

准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

十年热恋 提交于 2020-04-08 17:59:25
yu Code 15 Comments 机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。(注: 相对来说,IR 的 ground truth 很多时候是一个 Ordered List, 而不是一个 Bool 类型的 Unordered Collection,在都找到的情况下,排在第三名还是第四名损失并不是很大,而排在第一名和第一百名,虽然都是“找到了”,但是意义是不一样的,因此 更多可能适用于 MAP 之类评估指标。) 本文将简单介绍其中几个概念。中文中这几个评价指标翻译各有不同,所以一般情况下推荐使用英文。 现在我先假定一个具体场景作为例子。 假如某个班级有男生 80 人,女生 20 人,共计 100 人.目标是找出所有女生. 现在某人挑选出 50 个人,其中 20 人是女生,另外还错误的把30个男生也当作女生挑选出来了. 作为评估者的你需要来评估( evaluation )下他的工作 首先我们可以计算 准确率(accuracy) ,其定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率 [1] . 这样说听起来有点抽象

分类问题常用的性能度量指标有哪些?

纵饮孤独 提交于 2020-04-06 03:47:06
常用的性能度量指标有: 精确率 、 召回率 、 F 1 、 TPR 、 FPR 。 预测为真 预测为假 真实为真 TP(true positive) FN(false negative) 真实为假 FP(false positive) TN(true negative) 精确率 Precision=TP/(TP+FP) 召回率 Recall=TP/(TP+FN) 真正例率 即为正例被判断为正例的概率TPR=TP/(TP+FN) 假正例率 即为反例被判断为正例的概率FPR=FP/(TN+FP) 精确率又称查准率,顾名思义适用于对准确率较高的应用,例如网页检索与推荐。召回率又称查全率,适用于检测信贷风险、逃犯信息等。精确率与召回率是一对 矛盾 的度量,所以需要找一个 平衡点 ,往往使用F 1 是精确率与召回率的调和平均值: (1) 错误率和准确率 错误率: 准确率:acc=1-e (2) AUC与ROC曲线 对于0、1分类问题,一些分类器得到的结果并不是0或1,如神经网络得到的是0.5、0.6等,此时就需要一个 阈值cutoff ,那么小于阈值的归为0,大于的归为1,可以得到一个分类结果。 ROC曲线 (Receiver Operational Characteristic Curve)是以False Positive Rate为横坐标,True Postive

Credit Fraud信用卡欺诈数据集,如何处理非平衡数据

寵の児 提交于 2020-04-06 02:06:20
Credit Fraud 简介 数据来源 模型评价标准 不平衡样本的处理 不平衡样本的分析 不处理样本 不设置权重 设置权重,使用balanced 设置权重,使用不同的权重 AUC(ROC) 与 AUC(PRC)对比 升采样 升采样SMOTE XGBoost 建模 参考链接 简介 数据来源 数据集源自位于比利时布鲁塞尔ULB(Université Libre de Bruxelles) 的研究小组Worldline and the Machine Learning Group。数据集包含由欧洲持卡人于2013年9月使用信用卡在两天内发生的交易,284,807笔交易中有492笔被盗刷,正类(被盗刷)占所有交易的0.172%,数据集非常不平衡。它只包含作为PCA转换结果的数字输入变量。由于保密问题,特征V1,V2,… V28是使用PCA获得的主要组件,只有“交易时间”和“交易额”是原始特征。 可以从以下几个方面来探索数据集: 识别信用卡盗刷; 不平衡样本的处理方式 尝试不同的重采样是如何影响模型的效果 模型可以尝试Logistic回归、svm、决策树、XGBoost等进行预测 模型评价标准 由于样本的不平衡性与不平衡率,推荐使用Area Under the Precision-Recall Curve (AUPRC)来衡量准确率。注意,对于非平衡样本的分类,不推荐使用混淆矩阵

分类问题常用的性能度量指标有哪些?

。_饼干妹妹 提交于 2020-04-06 01:54:21
常用的性能度量指标有: 精确率 、 召回率 、 F 1 、 TPR 、 FPR 。 预测为真 预测为假 真实为真 TP(true positive) FN(false negative) 真实为假 FP(false positive) TN(true negative) 精确率 Precision=TP/(TP+FP) 召回率 Recall=TP/(TP+FN) 真正例率 即为正例被判断为正例的概率TPR=TP/(TP+FN) 假正例率 即为反例被判断为正例的概率FPR=FP/(TN+FP) 精确率又称查准率,顾名思义适用于对准确率较高的应用,例如网页检索与推荐。召回率又称查全率,适用于检测信贷风险、逃犯信息等。精确率与召回率是一对 矛盾 的度量,所以需要找一个 平衡点 ,往往使用F 1 是精确率与召回率的调和平均值: (1) 错误率和准确率 错误率: 准确率:acc=1-e (2) AUC与ROC曲线 对于0、1分类问题,一些分类器得到的结果并不是0或1,如神经网络得到的是0.5、0.6等,此时就需要一个 阈值cutoff ,那么小于阈值的归为0,大于的归为1,可以得到一个分类结果。 ROC曲线 (Receiver Operational Characteristic Curve)是以False Positive Rate为横坐标,True Postive

TPE,TPR材料配色应注意哪些?

自古美人都是妖i 提交于 2020-03-26 16:30:13
3 月,跳不动了?>>>   由于芳香族载体会吸引材料的苯乙烯封端,因此不可使用芳香族载体。明亮、醒目、荧光的颜色复合材料可实现明亮、霓虹、荧光或其他醒目的颜色。半透明或透明的材料品种是实现深色、浓色、半透明颜色效果的最佳选择。应注意使用颜料与染料产生的颜色是有机的,暴露在阳光下时容易褪色。在任何情况下使用色母料均要进行全面的测试,确保其符合实际应用要求。   以EVA为基础的色母料也可成功应用于热塑性弹性体TPE。它对硬度有较小的影响,但可略微降低热塑性弹性体TPE的耐温度变化性。已聚乙烯与聚苯乙烯为基础的色母料也很有效。然而,高分子量的聚苯乙烯可能不能与复合材料中的低分子量的Kraton?聚合物封端混合。因此,我们建议使用以聚丙烯或EVA为基础的色母料。   如果您要将此效果减到最低,可使用50:1的高浓度色母料。您需要在机器中进行充分搅拌,或使用喷嘴上的静态混合器实现最均匀的颜色。对TPE复合材料着色时,塑伯笔者建议您在机筒内使用高螺杆转速 (100-200 rpm)、高背压 (100psi) 及较高的倾斜角度。   SBS热塑性弹性体与聚苯乙烯最兼容。以低分子量聚苯乙烯为基础的色母料是最佳选择。根据工序的不同,或想要不同的结果,色母料浓度可低至10:1,或高至100:1。然而,浓度高于25:1 时,操作须小心。 惠州市中塑王塑胶制品公司专注深圳TPE厂家,15年专注TPE