机器学习算法(九)—— 降维与主成分分析法

隐身守侯 提交于 2021-01-13 05:40:12

一、什么是降维

降维,就是将数据由原来的n个特征(feature)缩减为k个特征(可能从n个中直接选取k个,也能根据这n个重新组合成k个)。可起到数据压缩的作用(因而也就存在数据丢失)。

PCA,即主成分分析法,属于降维的一种方法。其主要思想就是 :根据原始的n个特征(也就是n维),重新组合出k个特征,且这k个特征能最大量度地涵盖原始的数据信息(虽然会导致信息丢失)。

有一个结论:当某一维的方差越大时,其所包含的信息量也越大,表明其越重要;反之则反。所以,PCA的主要工作就是:重构出k个特征,使其所包含的信息量最大。

什么是主成分分析法

举一个简单的例子,上面的图片中这组数据具有两个特征分别为特征一和特征二,我们如果只考虑其中的一个特征的话,那么就需要将这组数据投影到X轴(特征1)或Y轴(特征2)上。

比较两种投影结果,我们认为第一种(投影至X轴)的投影效果更好,因为点与点之间的距离比较稀疏,能更好的区分各个样本,反观投影至Y轴上的结果,点与点之间比较紧凑,样本之间不容易区分。

可是这样的投影方式是不是最好的呢?

我们继续思考是否存在这样一条直线,当我们把所有的点投影到这条直线上时,所有点之间的距离最大呢?

因此我们的目标转换为如何寻找到这样一条让样本间距离最大的轴,但是在这之前,我们应该先知道如何来定义样本间的距离?事实上,在统计学中,方差正好满足我们的需求,它表示样本间整体疏密程度。

二、主成分分析法步骤

对于如何找到一个轴,使得样本空间的所有点映射到这个轴的方差最大。

第一步:样本归0

将样本进行均值归0(demean),即所有样本减去样本的均值。样本的分布没有改变,只是将坐标轴进行了移动。

转化为了

因为现在的均值已经为零,因此就有了如下公式

三、总结

主成分分析方法(PCA),是数据降维算法。将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,即用较少的综合指标分别代表存在于各个变量中的各类信息,达到数据降维的效果。

所用到的方法就是“映射”:将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。我们要选择的就是让映射后样本间距最大的轴。

其过程分为两步:

  • 样本归0

  • 找到样本点映射后方差最大的单位向量 最后就能转为求目标函数的最优化问题:

    求w,使得 最大。

此时,我们就可以用搜索策略,使用梯度上升法来解决

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!