机器学习之样本不均衡
以下内容是个人通过查阅网上相关资料总结出的内容 具体说明数据不均衡会带来的问题: 1) 在一个二分类问题中,训练集中 class 1的样本数比class 2的样本数是60:1。使用逻辑回归进行分类, 最后训练出的模型可能会忽略了 class 2,即模型可能会将所有的训练样本都分类为class 1。 2)在分类任务的数据集中,有三个类别,分别为A,B,C。在训练集中,A类的样本占70%,B类的样本占25%,C类的样本占5%。最后我的 分类器对类 A的样本过拟合了,而对其它两个类别的样本欠拟合。 那么该如何解决这种样本不均衡问题? 1) 过抽样 抽样是处理不平衡数据的最常用方法, 基本思想就是通过改变训练数据的分布来消除或减小数据的不平衡。 过抽样方法通过增加少数类样本来提高少数类的分类性能 , 最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。 改进的过抽样方法通过在少数类中加入随机高斯噪声或 产生新的合成样本 等方法。 如何解决过采样中只是简单的复制少数类样本所带来的过拟合缺点? 采用过采样的典型算法 SMOTE(它是通过对训练集里的小样本类别进行插值来产生额外的小样本类别数据) 2) 欠抽样 欠抽样方法通过减少多数类样本来提高少数类的分类性能,最 简单的方法是通过随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类的一些重要信息