不平衡数据集的处理方法
(定义,举例,实例,问题,扩充,采样,人造,改变) 一、不平衡数据集 1)定义 不平衡数据集指的是数据集各个类别的样本数目相差巨大。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,这种情况下的数据称为不平衡数据 2)举例 在二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分类为class 1 在三分类问题中,三个类别分别为A,B,C,训练集中A类的样本占70%,B类的样本占25%,C类的样本占5%。最后我的分类器对类A的样本过拟合了,而对其它两个类别的样本欠拟合 3)实例 训练数据不均衡是常见并且合理的情况,比如: a)在 欺诈交易 识别中,绝大部分交易是正常的,只有极少部分的交易属于欺诈交易 b)在 客户流失 问题中,绝大部分的客户是会继续享受其服务的(非流失对象),只有极少数部分的客户不会再继续享受其服务(流失对象) 4)导致的问题 如果训练集的90%的样本是属于同一个类的,而我们的分类器将所有的样本都分类为该类,在这种情况下,该分类器是无效的,尽管最后的分类准确度为90%。所以在数据不均衡时,准确度( Accuracy )这个评价指标参考意义就不大了 实际上,如果不均衡比例超过4:1