缺失值处理
1. 数据缺失分为两种:行记录缺失,列记录缺失。 2. 不同的数据存储和环境对缺失值的表示也不同。例如:数据库中是Null,Python是None,Pandas或Numpy是NaN。 3. 对缺失值的处理通常4种方法: (1). 丢弃 下面两种场景不宜采用该方法: 不完整数据比例较大,超过10% 缺失值存在明显的数据分布规律或特征 (2). 补全 常用补全方法: 统计法:对于 数值型 的数据,使用均值、加权均值、中位数等方法补足;对于 分类型 数据,使用类别众数最多的值补足。 模型法:基于已有的其他字段,将缺失字段作为目标变量进行预测,从而得到较为可能的补全值。如果带有缺失值的列是 数值 变量,采用回归模型补全;如果是 分类 变量,则采用分类模型补全。 专家补全:少量且具有重要意义的数据记录,专家补足也是非常重要的一种途径。 其他方法:随机发、特殊值法、多重填补等 (3). 真值转换法 (4). 不处理 常见能够自动处理缺失值模型包括:KNN、决策树和随机森林、神经网络和朴素贝叶斯、DBSCAN(基于密度的带有噪声的空间聚类)等。 处理思路: 忽略 ,缺失值不参与距离计算,例如:KNN。 将缺失值 作为分布的一种状态 ,并参与到建模过程,例如:决策树以及变体。 不基于距离做计算 ,因此基于值得距离计算本身的影响就消除了,例如:DBSCAN。 4. 对于缺失值的处理上,主要配合使用