首先,需要先理解什么是方差,什么是协方差,这里不做说明,需要的可以去找考研复习视频去学习下概率论。
=1、首先我们来理解二维
设有函数f(x,y)
其中有n个样本点(n>0),分别为
将所有坐标减去均值的样本点坐标为 ,这个过程叫数据中心化
将去中心化的样本点表示成矩阵形式为
,设为矩阵X,这个矩阵我们称为有两个特征值。则定义 协方差矩阵 为C =
(书上就是这么定义的)可以看出,C是一个2*2维的矩阵,用样本点表示为
很显然 等于
2、对于多维
同样,对于 t 维函数
,有样本点分别为与二维的方式类似,先进行数据中心化,然后写出t个特征值的矩阵,然后通过C = ,计算出协方差矩阵。
那么对于 t 维的协方差矩阵简化表示为
3、作用
用协方差矩阵可以对原始的维度的数据进行最小损失的降维。通过求取协方差矩阵的特征值(Eigenvalues)和对应特征向量(Eigenvectors),按特征值大小排序,降维就是从特征值小的维度开始剔除。(特征值小,表明对应的那一维特征对整体的影响比较小,比如下面的图中,使用右边的坐标系时,明显y轴的对整体数据的影响比x轴要小,那么可以在右边的坐标系下,对y轴进行降维,是数据从二维变成线性的,降维对于二维可能用处不是太大,但是对于多维的数据,很有必要,可以减少数据的复杂度)
4、降维后数据求取
假设我们来对一个二维数据进行降维
设二维数据为
如果k1>k2 ,我们选取(x1,y1)作为特征向量。那么原始数据降维操作为
所以原始数据变为
来源:CSDN
作者:丘上人
链接:https://blog.csdn.net/qiushangren/article/details/103616770