PCA主成分分析(最大投影方差)
PCA简介: 从n维数据中提取最能代表这组数据的m个向量,也就是对数据进行降维(n->m),提取特征。 目标: 找到一个向量 \(\mu\) ,使n个点在其上的投影的方差最大(投影后的数据越不集中,就说明每个向量彼此之间包含的相似信息越少,从而实现数据降维) 前提假设: 总的数据: \[A = (x_1, x_2, \cdots , x_n)\] \(X\) 的协方差: \[C = Cov(X) = \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(x_i-\overline{x})^T\] 向量 \(\mu\) : \[|\mu| = 1 \Rightarrow \mu^T\mu = 1\] 证明: 易知 \(x_i\) 在 \(\mu\) 上的投影为 \[(x_i-\overline{x})^T\cdot\mu\] 因为 \((x_i-\overline{x})\) 均值为0, 所以记其方差 \(J\) 为 \[\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^T\cdot\mu)^2\] 又因为上式平方项中为标量,故可以将 \(J\) 改写为 \[\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^T\cdot\mu)^T\cdot(x_i-\overline{x})^T