相关系数之皮尔森相关系数
皮尔森相关系数(Pearson Correlation Coefficient) 先讲几个统计学中一些基本的数学概念: 数学期望就是平均值: 均值公式: 方差: 或者: 另一种形式: 标准差: 标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多。 协方差: 展开: 或者: 从直观上来看,协方差表示的是两个变量总体误差的期望。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 如果 X 与 Y 是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足 E [ XY ]= E [ X ] E [ Y ] 故协方差主要用来度量各个维度偏离其均值的程度。如果结果为正值