皮尔逊相关系数

皮尔逊积矩相关系数的学习

大憨熊 提交于 2020-03-05 04:59:06
皮尔逊积矩相关系数的学习 做相似度计算的时候经常会用到皮尔逊相关系数(Pearson Correlation Coefficient),那么应该如何理解该系数?其数学本质、含义是什么? 皮尔逊相关系数理解有两个角度 一、以高中课本为例,将两组数据首先做Z分数处理之后,然后两组数据的乘积和除以样本数。 Z分数一般代表正态分布中数据偏离中心点的距离。等于变量减掉平均数再除以标准差。标准差则等于变量减掉平均数的平方和再除以样本数最后再开方。所以我们可以将公式依次精简为: 以下为python的实现: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 from math import sqrt #返回p1和p2的皮尔逊相关系数 def sim_pearson(prefs,p1,p2): #得到双方曾评价过的物品列表 si = {} for item in prefs[p1]: if item in prefs[p2]: si[item] = 1 #得到列表元素个数 n = len (si) #如果两者没有共同之处,则返回1 if not n: return 1 #对所有偏好求和 sum1 = sum ([perfs[p1][it] for it in si])

【机器学习】几种相似度算法分析

匿名 (未验证) 提交于 2019-12-03 00:30:01
最近开始研究推荐系统,其中常见的相似度算法有以下几种: 1. 欧几里得距离 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 注意事项: a.因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。 b.欧几里得距离是数据上的直观体现,看似简单,但在处理一些受主观影响很大的评分数据时,效果则不太明显;比如,U1对Item1,Item2 分别给出了2分,4分的评价;U2 则给出了4分,8分的评分。通过分数可以大概看出,两位用户褒Item2 ,贬Item1,也许是性格问题,U1 打分更保守点,评分偏低,U2则更粗放一点,分值略高。在逻辑上,是可以给出两用户兴趣相似度很高的结论。如果此时用欧式距离来处理,得到的结果却不尽如人意。即评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度。 2. 皮尔逊相关系数 Pearson 相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关)

统计中的三种相关系数及Matlab实现

点点圈 提交于 2019-12-02 12:36:22
在多元分析中我们经常要用到相关系数。常用的相关系数有三种:Pearson相关系数,Kendall相关系数和Spearman相关系数。 一、Pearson相关系数 Pearson相关系数是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。 按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦. 皮尔逊相关的约束条件 1 两个变量间有线性关系 2 变量是连续变量 3 变量均符合正态分布,且二元分布也符合正态分布 4 两变量独立 皮尔逊相关系数适用于: (1)两个变量之间是线性关系,都是连续数据。 (2)两个变量的总体是正态分布,或接近正态的单峰分布。 (3)两个变量的观测值是成对的,每对观测值之间相互独立。 二、Kendall相关系数 Kendall相关系数是以 Maurice Kendall 命名的,并经常用希腊字母τ(tau)表示其值。Kendall相关系数用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况,Kendall相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。 三、Spearman相关系数 Spearman等级相关系数又称秩相关系,它以Charles Spearman命名

相关性模型-相关系数

瘦欲@ 提交于 2019-11-30 03:37:34
相关系数可用来衡量两个变量之间的相关性大小,根据数据满足的不同条件,选择不同的相关系数进行计算分析。 两种常用的相关系数:皮尔逊person和斯皮尔曼spearman。 总体和样本: 皮尔逊相关系数:(要求数据要都是符合正态分布的数据,而且数据需线性相关) 必须先确认两个变量时线性相关的( 画样本散点图先观察是否线性 ),然后此系数才能告诉他们相关程度如何。如果计算的相关系数为0,只能说明非线性相关。 不能说协方差大的两个变量比协方差小的两个变量更相关,因为没有消除变量的量纲的影响。皮尔逊相关系数就是协方差消除量纲后的结果。 样本皮尔逊相关系数同总体皮尔逊相关系数: 由于皮尔逊相关系数只是衡量已知线性相关的两个变量的相关程度,其他情况不适用: 对相关性大小的解释: 根据具体事情具体分析,没有标准大小的阈值规定。比起相关系数大小,我们更关注其显著性。(假设检验) 对皮尔逊相关系数进行假设检验: 如:求出相关系数r=0.3,问是否和0(非线性相关)有显著差异? 经假设检验求出03与0有显著差异的,就可说明变量的相关性是显著的;若求出0.3和0没有显著差异,可说明变量并不相关,相关系数不显著。 步骤: 对皮尔逊相关系数构造统计变量,知道统计量的分布,就可以画出统计变量的概率密度函数。将计算出的皮尔曼相关系数带入统计变量,得到一个检验值,根据置信水平画出统计变量接受域和拒绝域