数据预处理

为什么要进行预处理

现实世界的数据很“脏”

不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据
如, occupation=“ ”
来源于：收集数据时，在不同的阶段具有不同的考虑；人/硬件/软件的问题等。
含噪声的: 包含错误或存在孤立点
如, Salary=“-10”
来源于：收集阶段；数据传输阶段等。
不一致的: 在名称或代码之间存在着差异
如, Age=“42” Birthday=“03/07/1997”
如, 原来排序 “1,2,3”, 现在排序 “A, B, C”
来源于：不同的数据源；功能依赖冲突。

数据预处理的主要任务

数据清洗（Data cleaning）
填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题
数据集成（Data integration）
对多个数据库，数据立方或文件进行集成
数据变换（Data transformation）
规范化与聚集（Normalization and aggregation）
数据约简（Data reduction）
得到数据集的压缩表示，它小的多，但能够产生同样的（或几乎同样的）分析结果
数据离散化（Data discretization）
特别对数字值而言非常重要

数据清洗

清洗的主要任务：

填充遗失数据
辨识孤立点、平滑噪声数据
修正不一致性数据
解决数据集成时带来的数据冗余问题

怎样处理遗失的数据：

忽略元组: 除非元组有多个属性缺少值，否则该方法不是很有效
人工填充: 费时费力
自动填充：
- 使用一个全局常量填充: 如, “unknown”, 会误认为是一个新的、有意义的类?!
- 该属性的平均值
- 使用最可能的值: 使用基于推导的方法，如Bayesian公式或决策树

怎样处理噪声数据：

分箱方法:
先对数据进行排序，然后把它们划分到箱
然后通过箱平均值，箱中值等进行平滑.
- 等宽 (距离)划分:
  根据属性值的范围划分成N等宽的区间
  
  很直接，但孤立点将会对此方法有很大的影响
- 等深 (频率) 划分:
  划分成N个区间，每个区间含有大约相等地样本数。具有较好的数据扩展性。

实例：

*  价格排序: 4, 8, 9, 11, 15, 21, 21, 22, 24, 25, 26, 28, 29, 30, 40 *  划分成箱 (等深) :       - Bin 1: 4, 8, 9, 11, 15       - Bin 2: 21, 21, 22, 24, 25       - Bin 3: 26, 28, 29, 30, 40 *  用箱平均值平滑数据:       - Bin 1: 9.4, 9.4, 9.4, 9.4, 9.4       - Bin 2: 22.6, 22.6, 22.6, 22.6, 22.6       - Bin 3: 30.6, 30.6, 30.6, 30.6, 30.6 *  用箱中值平滑数据:       - Bin 1: 9, 9, 9, 9, 9       - Bin 2: 22, 22, 22, 22, 22       - Bin 3: 29, 29, 29, 29, 29