方差、协方差和Pearson相关系数在机器学习的理论概念中经常出现,本文主要理一下这几个概念及其相互间的关系。
(一)方差:
方差是每个样本值与全体样本值的平均数之差的平方值的平均数,公式如下:
上式中mui为样本均值。方差可以反应样本数据的离散程度,由上式可以看出,方差越大,样本离散程度也越大。机器学习中,如果某一特征值的离散程度很小,即表示该特征取值很少,可以认为样本在这个特征上基本没有差异,那这个特征对于样本区分没有什么作用,可以将这个特征去除,从而做到特征选择。
(二)标准差:
标准差即方差的开平方,不展开了,下面是公式:
(三)协方差:
协方差描述的是两个变量间的相关性,计算公式如下:
也可以用以下公式表示,两者是等价的:
cov(X, Y) = E[(X-E[X])(Y-E[Y])]
上式中E[ ]表示求期望,其中E[X]为X特征期望或均值,E[Y]为Y特征期望或均值。
对比方差和协方差的公式可以看出两者很像,但方差的结果是大于等于0的,当等于0时,说明样本的x特征取值唯一,反应的样本的x特征的离散程度;
协方差的取值则可以大于零也可以小于零,当大于零时,说明对应的两个变量x和y与其均值相比都同大于或同小于,即两个变量的变化趋势相同(正相关);当小于零时,说明对应的两个变量x和y不同时大于或小于其均值,即两个变量的变化趋势相反(负相关);而当均方根接近零时,说明两个变量基本没有相关性,接近相互独立。从以上描述可以看出,协方差可以衡量两个变量相关性大小,绝对值越大,说明越相关。但是,却不好比较多个变量与另外同一个变量间相关性的相对大小,因为量纲没有统一。
为了便于比较不同变量与另外同一个变量间相关性的相对大小,Pearson相关系数被提出了。
Pearson相关系数:
如上所述,Pearson相关性系数是为了比较不同变量与另外同一变量间相关性的相对大小,这里要注意的是:Pearson相关性系数衡量的是定距变量间的线性关系,可以用Pearson相关系数来进行特征特征选择。
就先到这吧,后面会更新另外两个相关系数:斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数。
来源:CSDN
作者:ACSE-Mayer
链接:https://blog.csdn.net/sunmingyang1987/article/details/103945801