空值填充算法
简介
造成数据缺失的原因
现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的:
- 信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。
- 信息被遗漏。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。
- 有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名、一个儿童的固定收入状况等。
- 有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关。
- 获取这些信息的代价太大。
- 系统实时性能要求较高。即要求得到这些信息前迅速做出判断或决策。
缺失的类型
在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。从缺失的分布来将缺失可以分为完全随机缺失,随机缺失和完全非随机缺失。
- 完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。如家庭地址缺失。
- 随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。例如财务数据缺失情况与企业的大小有关。
- 非随机缺失(missing not at random,MNAR):指的是数据的缺失与不完全变量自身的取值有关。如高收入人群的不原意提供家庭收入。
对于随机缺失和非随机缺失,删除记录是不合适的,随机缺失可以通过已知变量对缺失值进行估计;而非随机缺失还没有很好的解决办法。
说明:对于分类问题,可以分析缺失的样本中,类别之间的比例和整体数据集中,类别的比例
用途
缺失值处理的必要性
数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,缺省值的存在,造成了以下影响:
- 系统丢失了大量的有用信息;
- 系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;
- 包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
数据挖掘算法本身更致力于避免数据过分拟合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,缺省值需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。
可用的算法及优缺点
处理不完整数据集的方法主要有三大类:删除元组、数据补齐、不处理。
删除元组
也就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。这种方法简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比非常小的情况下非常有效,类标号缺失时通常使用该方法。
然而,这种方法却有很大的局限性。它以减少历史数据来换取信息的完备,会丢弃大量隐藏在这些对象中的信息。在初始数据集包含的对象很少的情况下,删除少量对象足以严重影响信息的客观性和结果的正确性;因此,当缺失数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。
说明:删除元组,或者直接删除该列特征,有时候会导致性能下降。
数据补齐
这类方法是用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据初始数据集中其余对象取值的分布情况来对一个缺失值进行填充。数据挖掘中常用的有以下几种补齐方法:
人工填写(filling manually)
由于最了解数据的还是用户自己,因此这个方法产生数据偏离最小,可能是填充效果最好的一种。然而一般来说,该方法很费时,当数据规模很大、空值很多的时候,该方法是不可行的。
特殊值填充(Treating Missing Attribute values as Special values)
将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个有趣的概念,可能导致严重的数据偏离,一般不推荐使用。
平均值填充(Mean/Mode Completer)
将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。
如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值;
如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。与其相似的另一种方法叫条件平均值填充法(Conditional Mean Completer)。在该方法中,用于求平均的值并不是从数据集的所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。
这两种数据的补齐方法,其基本的出发点都是一样的,以最大概率可能的取值来补充缺失的属性值,只是在具体方法上有一点不同。与其他方法相比,它是用现存数据的多数信息来推测缺失值。
热卡填充(Hot deck imputation,或就近补齐)
对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。
K最近距离邻法(K-means clustering)
先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
使用所有可能的值填充(Assigning All Possible values of the Attribute)
用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大,可能的测试方案很多。
组合完整化方法(Combinatorial Completer)
用空缺属性值的所有可能的属性取值来试,并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法,能够得到好的约简结果;但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大。
回归(Regression)
基于完整的数据集,建立回归方程。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。
期望值最大化方法(Expectation maximization,EM)
EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步(Excepctaion step,期望步),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步(Maximzation step,极大化步),用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。
多重填补(Multiple Imputation,MI)
多重填补方法分为三个步骤:
- 为每个空值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每个值都被用来填补数据集中的缺失值,产生若干个完整数据集合。
- 每个填补数据集合都用针对完整数据集的统计方法进行统计分析。
- 对来自各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。该方法的计算也很复杂。
C4.5方法
通过寻找属性间的关系来对遗失值填充。它寻找之间具有最大相关性的两个属性,其中没有遗失值的一个称为代理属性,另一个称为原始属性,用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。
就几种基于统计的方法而言,删除元组法和平均值法差于热卡填充法、期望值最大化方法和多重填充法;回归是比较好的一种方法,但仍比不上hot deck和EM;EM缺少MI包含的不确定成分。值得注意的是,这些方法直接处理的是模型参数的估计而不是空缺值预测本身。它们合适于处理无监督学习的问题,而对有监督学习来说,情况就不尽相同了。譬如,你可以删除包含空值的对象用完整的数据集来进行训练,但预测时你却不能忽略包含空值的对象。另外,C4.5和使用所有可能的值填充方法也有较好的补齐效果,人工填写和特殊值填充则是一般不推荐使用的。
不处理
补齐处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实,在对不完备信息进行补齐处理的同时,我们或多或少地改变了原始的信息系统。而且,对空值不正确的填充往往将新的噪声引入数据中,使挖掘任务产生错误的结果。因此,在许多情况下,我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理。
不处理缺失值,直接在包含空值的数据上进行数据挖掘的方法包括贝叶斯网络和人工神经网络等。
贝叶斯网络提供了一种自然的表示变量间因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。
人工神经网络可以有效的对付缺失值,但人工神经网络在这方面的研究还有待进一步深入展开。
知乎上的一种方案:
4.把变量映射到高维空间。比如性别,有男、女、缺失三种情况,则映射成3个变量:是否男、是否女、是否缺失。连续型变量也可以这样处理。比如Google、百度的CTR预估模型,预处理时会把所有变量都这样处理,达到几亿维。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值、不用考虑线性不可分之类的问题。缺点是计算量大大提升。
而且只有在样本量非常大的时候效果才好,否则会因为过于稀疏,效果很差。
总结
大多数数据挖掘系统都是在数据挖掘之前的数据预处理阶段采用第一、第二类方法来对空缺数据进行处理。并不存在一种处理空值的方法可以适合于任何问题。无论哪种方式填充,都无法避免主观因素对原系统的影响,并且在空值过多的情形下将系统完备化是不可行的。从理论上来说,贝叶斯考虑了一切,但是只有当数据集较小或满足某些条件(如多元正态分布)时完全贝叶斯分析才是可行的。而现阶段人工神经网络方法在数据挖掘中的应用仍很有限。值得一提的是,采用不精确信息处理数据的不完备性已得到了广泛的研究。不完备数据的表达方法所依据的理论主要有可信度理论、概率论、模糊集合论、可能性理论,D-S的证据理论等。
目前实现方式
目前所实现的三种方式均可归类为上文中的回归方式。
1、 基于小区时间序列数据的多项式拟合,实现小区某一时间均价的空值填充
实现原理:
算法以小区为单位进行空值填充,以时间为自变量x,均价为因变量y,假设时间与均价之间的拟合函数为形如 y = ax^5 + bx^4 + cx^3 + dx^2 + ex + f 的一元5次方程(该方程的图形为一条二维空间的曲线),将已有的自变量与因变量数据代入,求解函数中的a、b、c、d、e、f系数。
系数解出后,将参数反代回方程,这样就得到了完整的拟合方程,这时将空值所在的某一时间x1代入拟合方程,就能得到当前小区在x1时间的均价y1。
2、 基于最小二乘法的空间曲面拟合,实现同一时刻商区中某一小区均价的空值填充
实现原理:
与多项式拟合思路类似,算法以某一时间的商圈为单位进行空值填充,以纬度为自变量x,经度为自变量y,均价为因变量z,假设经纬度与均价之间的拟合函数为形如 z = ax^2 + by^2 + cx + dy + exy + f 的二元2次方程(该方程的图形为一个三维空间的曲面),将已有的自变量与因变量数据代入,求解函数中的a、b、c、d、e、f系数。
系数解出后,将参数反代回方程,得到完整的拟合方程,这时将空值所在的某一小区经纬度x1、y1代入拟合方程,就能得到该小区的均价z1
关于拟合函数模型的选择:
拟合函数的选择是拟合的基础,是否选择了合适的关系函数关系到拟合后模型的精准度好坏。关系函数有二维的如:y = ax + b(线性函数)、y = ax^2 + bx + c(二次多项式函数)、y = a*e^(bx)(指数函数)等,三维的如:z = ax + by(平面)、z = ax^2 + by^2 + cx + dy + exy + f(二次曲面)、z^2 = (x + a)^2 + (y + b)^2(柱面)等。具体选择关系函数时,应根据已有数据的离散分布情况,函数自身的基本特性,及已有数据量来综合考量。
在空值填充的实现中选择多项式函数与三维曲面函数进行拟合的原因:
多项式函数相较于其他二维函数,可以做到一定程度的波动,能够更好地贴合真实数据。
二次曲面相较于其他三维函数,具有易于建模,较为贴合真实数据的优点,相较于更高次的曲面,具有建模时需求数据量小的优点。
关于最小二乘拟合算法原理:
根据两个变量的实验数据找出它们之间的近似函数表达式f(x),即经验公式。
若f(x)为线性函数,则相应问题为线性最小二乘问题,否则称为非线性最小二乘问题。
线性最小二乘问题可以借助多元微分学知识通过求解方程组得到。
非线性最小二乘问题求解比较困难,一般要借用线性化方法(例如将化学反应的速度用指数函数来表示)或最优方法(搜索算法和迭代算法)才行。
不论是二维拟合还是三维拟合,最小二乘拟合算法都是在确定拟合函数模型后,将已有的各组数据全部代入,通过一系列矩阵运算,求解未知系数的过程。根据矩阵相关定理,已有数据的组数必须大于等于未知系数个数,否则导致矩阵无解,进而无法得到拟合函数。当已有数据的组数等于未知系数个数时,解出的拟合函数将经过所有已有的数据点;当已有数据的组数大于未知系数个数时,解出的拟合函数将会尽量贴合已有数据点。具体的矩阵运算操作不作赘述。
3、 基于移动最小二乘(MLS)的曲面构造
移动最小二乘法
在离散的点云中,求曲线曲面拟合,不能简单地连接这些点,如果知道曲线曲面的形式,如为二次曲线等,可以简单地使用最小二乘法估计参数;但如果曲线曲面形式未知,可以使用移动最小二乘法。
移动最小二乘法与传统的最小二乘法相比,有两个比较大的改进【1】:
(1)拟合函数的建立不同。这种方法建立拟合函数不是采用传统的多项式或其它函数,而是由一个系数向量a(x)和基函数p(x)构成,这里a(x)不是常数,而是坐标x 的函数。
(2)引入紧支(Compact Support)概念,认为点x 处的值y 只受x 附近子域内节点影响,这个子域称作点x 的影响区域,影响区域外的节点对x的取值没有影响。在影响区域上定义一个权函数w(x),如果权函数在整个区域取为常数,就得到传统的最小二乘法。
这些改进能够带来许多优点,减缓或解决传统曲线曲面拟合过程中存在的困难。可以取不同阶的基函数以获得不同的精度,取不同的权函数以改变拟合曲线(曲面)的光滑度,这是其它拟合方法无法做到的。
从上述的阐述来看,如果取不同的基函数,不同的权函数,不同的影响区域范围,可以得到不同的拟合效果。
下面介绍一下算法:
如果直接求解出a,那么可以算出在x处的函数值了。
介绍一下权函数:
在影响区域内,权函数非负,并且沿径向单调递减,即随着到当前x处的距离的增加而递减。比如:
matlab示例代码:
x=[0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0];
y=[0, 4, 5, 14, 15, 14.5, 14, 12, 10, 5, 4];
scatter(x,y,'filled');
len_x = length(x);
max_x = max(x);
min_x = min(x);
num = 100;
delta = (max_x-min_x)/num;
x_f =[];
f =[];
max_delta = (max_x-min_x)*3/10;
for i=0:num
x_val = min_x + i*delta;
x_f = [x_f,x_val];
A = zeros(2,2);
B = [];
for j=1:len_x
s = abs(x(j)-x_val)/max_delta;
if s<=0.5
w = 2/3-4*s^2+4*s^3;
elseif s<=1
w = 4/3-4*s+4*s^2-4*s^3/3;
else
w = 0;
end
A = A + w*[1;x(j)]*[1,x(j)];
B = [B,w*[1;x(j)]];
end
f =[f,[1,x_val]*inv(A)*B*y'];
end
hold on
plot(x_f,f,'r');
代码说明:使用x、y构建
来源:oschina
链接:https://my.oschina.net/u/4345947/blog/3909022