二 数据探索
1 数据质量分析 数据质量分析是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。其主要任务是检查原始数据中是否存在脏数据: (1)缺失值 (2)异常值(outliers) (3)不一致的值 (4)重复数据及含有特殊符号的数据 1.1 缺失值分析 1.2 异常值分析 异常值是指样本中数值明显偏离其余观测值的个别值,也称为离群点。 (1)简单统计量分析 先对变量做描述性统计,检查数据是否合理。常用的统计量是最大、最小值。 (2)3σ 原则 (3)箱型图分析 1.3 一致性分析 数据不一致是指数据中存在矛盾、不相容。 2 数据特征分析 2.1 分布分析 定量数据:频率分布表、频路分布直方图、茎叶图 定性分类数据:饼图、条形图 定量数据的分布分析 选择“组数”和“组宽” (1)求极差 (2)确定组距与组数 (3)确定分点 (4)列出频率分布表 (5)绘制频率分布直方图 主要原则: (1)各组间互斥 (2)各组必须包含所有数据 (3)各组组宽相等 定性数据分布分析 对于定性变量,常根据变量的分类类型进行分组,可以采用饼图和条形图描述定性变量的分布。 2.2 对比分析 对比分析是指比较两个相互联系的指标,从数量上展示、说明研究对象规模、水平、速度,以及各种关系是否协调,适用于指标间的横纵向比较、时间序列比较分析。对比分析主要形式有: (1)绝对数值比较:通过绝对数对比,寻找差异;