数据挖掘与数据仓库――数据预处理
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/budding0828/article/details/90311670 数据预处理 为什么要进行预处理 现实世界的数据很“脏” 不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据 如, occupation=“ ” 来源于:收集数据时,在不同的阶段具有不同的考虑;人/硬件/软件的问题等。 含噪声的: 包含错误或存在孤立点 如, Salary=“-10” 来源于:收集阶段;数据传输阶段等。 不一致的: 在名称或代码之间存在着差异 如, Age=“42” Birthday=“03/07/1997” 如, 原来排序 “1,2,3”, 现在排序 “A, B, C” 来源于:不同的数据源;功能依赖冲突。 数据预处理的主要任务 数据清洗(Data cleaning) 填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题 数据集成(Data integration) 对多个数据库,数据立方或文件进行集成 数据变换(Data transformation) 规范化与聚集(Normalization and aggregation) 数据约简(Data reduction) 得到数据集的压缩表示,它小的多,但能够产生同样的(或几乎同样的)分析结果 数据离散化