数据清洗

一曲冷凌霜 提交于 2019-12-11 19:46:40

数据清洗的概念

数据清洗的流程

字段选择

数据质量报告

数据清洗主要工作

数据清洗的概念

数据清洗主要是针对数据中的错误值、异常值、缺失值进行处理的过程,以及删除那些取值很多的类别型字段,或者取值一致性程度极高的字段。

数据清洗流程

1.再次确认数据是否拷贝

2.再次确认原始数据中是否具有唯一ID

3.清洗数据中错误值(填写错误、逻辑错误)

4.清洗数据中的异常值

5.清洗数据中的缺失值

字段选择

通常在收集的原始数据中,**将姓名或其他字符串的字段不选入最终分析的数据库中,**如问卷调查中的主观开放题。
在实际项目中,如果客户有历史数据,应提取越多字段的数据越好。
另外,需处理数据整合的问题,如数据单位不一致问题(美元*人民币)、数据重复问题(A和B数据库中都存在一部分重复用户的数据,合并时需剔除)。
字段数据重复:单个字段数据重复、多个字段之间的数据重复

数据清洗主要工作

噪声消除

噪声包括错误值(以类别字段为主)和异常值(针对变量)
噪声会使后期分析结果产生很大偏差,必须对噪声进行有效的识别和处理

缺失值处理

  • 人工处理
  • 软件自动处理

错误值和异常值处理方法**

软件及人工结合的方法

错误值:
无论分类变量还是连续变量,均先检查数据的分布情况,找到错误值。对于分类变量,检查与其他值是否有相似之处,如无,直接处理空值/未知。

异常值:
判断标准:1)最小最大分布法,按从小到大排序,选取最小的5%和最大的95%数据作为异常值;
2)标准分法:平均±3个标准差(1个标准差:68%;2个标准差:95%;3个标准差:99.7%,6 σ:99.9996%)
3)四分位数法:IQR=Q3-Q1,Q1-1.5*IQR~Q3+1.5/*IQR

异常值处理方法:
1)直接视为空值
2)最大、最小、均值代替
3)函数校正法:如回归、决策数等

缺失值处理方法

1.直接忽略法

适合的场景:
1)数据样本量很多时,且包含缺失值的样本数较少时;
2)该样本缺失的字段占总字段一半以上时,可直接删除该样本;
3)在进行分类统计时,如果该样本分类标记为空值,因为该样本无法被归类,可直接删除,尤其是该分类变量是模型分析的关键变量,如是否死亡。

缺点:
方法太过于简单粗暴,当缺失值现象较多时,直接删除会造成大量信息丢失,甚至让整个项目无法进行下去。

2.将缺失值所在字段处理为指示变量

当该字段在所有样本中,有一半以上样本都存在缺失现象时,可将该字段作为指示变量,变量值为:缺失和未缺失

3.人工补充法

适合的场景:
1)缺少较少时,可通过人工从原始数据库再次查询或调查,如让客户再调用底层数据补充缺失的字段,以及人工电话再联络该样本再次询问缺失字段的选项;
2)通过其他数据计算得到,如性别、年龄、省份等字段可通过身份证号获取。

缺点:当缺失值现象较多时,人工成本较高,实际操作压力较大。

4.自动填补法

针对分类变量:
1)以通用的常数值代替,如“未知/缺失”;
2)填入该字段的众数;
3)用其他一个或多个字段预测该缺失值,如收入阶层可通过学历、年龄预测得到。

针对连续变量:
1)填入该字段的众数;
2)均值:所有样本的均值、附近样本的均值;
3)中位值:所有样本的均值、附近样本的中位数;
4)模型预测:通过其他字段与该字段建立模型,预测该缺失字段。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!