数据清洗的概念
数据清洗的流程
字段选择
数据质量报告
数据清洗主要工作
数据清洗的概念
数据清洗主要是针对数据中的错误值、异常值、缺失值进行处理的过程,以及删除那些取值很多的类别型字段,或者取值一致性程度极高的字段。
数据清洗流程
1.再次确认数据是否拷贝
2.再次确认原始数据中是否具有唯一ID
3.清洗数据中错误值(填写错误、逻辑错误)
4.清洗数据中的异常值
5.清洗数据中的缺失值
字段选择
通常在收集的原始数据中,**将姓名或其他字符串的字段不选入最终分析的数据库中,**如问卷调查中的主观开放题。
在实际项目中,如果客户有历史数据,应提取越多字段的数据越好。
另外,需处理数据整合的问题,如数据单位不一致问题(美元*人民币)、数据重复问题(A和B数据库中都存在一部分重复用户的数据,合并时需剔除)。
字段数据重复:单个字段数据重复、多个字段之间的数据重复
数据清洗主要工作
噪声消除
噪声包括错误值(以类别字段为主)和异常值(针对变量)
噪声会使后期分析结果产生很大偏差,必须对噪声进行有效的识别和处理
缺失值处理
- 人工处理
- 软件自动处理
错误值和异常值处理方法**
软件及人工结合的方法
错误值:
无论分类变量还是连续变量,均先检查数据的分布情况,找到错误值。对于分类变量,检查与其他值是否有相似之处,如无,直接处理空值/未知。
异常值:
判断标准:1)最小最大分布法,按从小到大排序,选取最小的5%和最大的95%数据作为异常值;
2)标准分法:平均±3个标准差(1个标准差:68%;2个标准差:95%;3个标准差:99.7%,6 σ:99.9996%)
3)四分位数法:IQR=Q3-Q1,Q1-1.5*IQR~Q3+1.5/*IQR
异常值处理方法:
1)直接视为空值
2)最大、最小、均值代替
3)函数校正法:如回归、决策数等
缺失值处理方法
1.直接忽略法
适合的场景:
1)数据样本量很多时,且包含缺失值的样本数较少时;
2)该样本缺失的字段占总字段一半以上时,可直接删除该样本;
3)在进行分类统计时,如果该样本分类标记为空值,因为该样本无法被归类,可直接删除,尤其是该分类变量是模型分析的关键变量,如是否死亡。
缺点:
方法太过于简单粗暴,当缺失值现象较多时,直接删除会造成大量信息丢失,甚至让整个项目无法进行下去。
2.将缺失值所在字段处理为指示变量
当该字段在所有样本中,有一半以上样本都存在缺失现象时,可将该字段作为指示变量,变量值为:缺失和未缺失
3.人工补充法
适合的场景:
1)缺少较少时,可通过人工从原始数据库再次查询或调查,如让客户再调用底层数据补充缺失的字段,以及人工电话再联络该样本再次询问缺失字段的选项;
2)通过其他数据计算得到,如性别、年龄、省份等字段可通过身份证号获取。
缺点:当缺失值现象较多时,人工成本较高,实际操作压力较大。
4.自动填补法
针对分类变量:
1)以通用的常数值代替,如“未知/缺失”;
2)填入该字段的众数;
3)用其他一个或多个字段预测该缺失值,如收入阶层可通过学历、年龄预测得到。
针对连续变量:
1)填入该字段的众数;
2)均值:所有样本的均值、附近样本的均值;
3)中位值:所有样本的均值、附近样本的中位数;
4)模型预测:通过其他字段与该字段建立模型,预测该缺失字段。
来源:CSDN
作者:穿衣的香菜君
链接:https://blog.csdn.net/yu5150/article/details/103497134