典型关联分析(CCA)原理总结
原文地址: https://www.cnblogs.com/pinard/p/6288716.html 典型关联分析(Canonical Correlation Analysis,以下简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢?CCA可以帮助我们分析这个问题。 1. CCA概述 在数理统计里面,我们都知道相关系数这个概念。假设有两组一维的数据集X和Y,则相关系数 ρ ρ 的定义为: ρ ( X , Y ) = c o v ( X , Y ) D ( X )−−−−−√ D ( Y )−−−−−√ ρ(X,Y)=cov(X,Y)D(X)D(Y) 其中 c o v ( X , Y ) cov(X,Y) 是X和Y的协方差,而 D ( X ) , D ( Y ) D(X),D(Y) 分别是X和Y的方差。相关系数 ρ ρ 的取值为[-1,1], ρ ρ 的绝对值越接近于1,则X和Y的线性相关性越高。越接近于0,则X和Y的线性相关性越低。 虽然相关系数可以很好的帮我们分析一维数据的相关性,但是对于高维数据就不能直接使用了。拿上面我们提到的,如果X是包括人身高和体重两个维度的数据,而Y是包括跑步能力和跳远能力两个维度的数据