皮尔逊

推荐中相似度计算问题(选择与总结)

僤鯓⒐⒋嵵緔 提交于 2019-12-20 11:34:44
《Dataminingguide》书阅读,第二章 推荐系统入门 1、 曼哈顿距离 最简单的距离计算方式。在二维计算模型中,每个人都可以用(X,Y)的点来表示。例如(X1,Y1)来表示艾米,(X2,Y2)来表示另一位人,那么他们之间的曼哈顿距离就是: |X1-X2|+|Y1-Y2| 也就是x之差的绝对值加上y之差的绝对值。 曼哈顿距离的优点之一就是计算速度快,对于Facebook这样需要计算百万用户之间的相似度时就非常有利。 2、 欧几里得距离 还是用(X,Y)来表示一个人,那么两个人之间的距离就是: 在计算两个用户之间的相似度距离时,只取双方都评价过的商品。 曼哈顿距离和欧几里得距离在 数据完整 的情况下效果最好。 3、闵克夫斯基距离 可以将曼哈顿距离和欧几里得距离归纳成一个公式,这个公式称为闵可夫斯基距离: R值越大,单个维度的差值大小会对整体距离有更大的影响。 4、 皮尔逊相关系数 分数膨胀:例如用户对乐队的评分,可以发现每个用户的打分标准非常不同,A的4分相当于B的4分还是5分? 解决方法之一就是使用皮尔逊相关系数。 皮尔森相关系数用于衡量两个变量之间的相关性,它的值在-1到1之间,1表示完全吻合,-1表示完全相悖。 皮尔逊相关系数的计算公式是: 上面的公式除了看起来比较复杂,另一个问题是要获得计算结果必须对数据做多次便利,好在有另外一个公式,能够计算皮尔逊相关系数的近似值:

相关性模型-相关系数

瘦欲@ 提交于 2019-11-30 03:37:34
相关系数可用来衡量两个变量之间的相关性大小,根据数据满足的不同条件,选择不同的相关系数进行计算分析。 两种常用的相关系数:皮尔逊person和斯皮尔曼spearman。 总体和样本: 皮尔逊相关系数:(要求数据要都是符合正态分布的数据,而且数据需线性相关) 必须先确认两个变量时线性相关的( 画样本散点图先观察是否线性 ),然后此系数才能告诉他们相关程度如何。如果计算的相关系数为0,只能说明非线性相关。 不能说协方差大的两个变量比协方差小的两个变量更相关,因为没有消除变量的量纲的影响。皮尔逊相关系数就是协方差消除量纲后的结果。 样本皮尔逊相关系数同总体皮尔逊相关系数: 由于皮尔逊相关系数只是衡量已知线性相关的两个变量的相关程度,其他情况不适用: 对相关性大小的解释: 根据具体事情具体分析,没有标准大小的阈值规定。比起相关系数大小,我们更关注其显著性。(假设检验) 对皮尔逊相关系数进行假设检验: 如:求出相关系数r=0.3,问是否和0(非线性相关)有显著差异? 经假设检验求出03与0有显著差异的,就可说明变量的相关性是显著的;若求出0.3和0没有显著差异,可说明变量并不相关,相关系数不显著。 步骤: 对皮尔逊相关系数构造统计变量,知道统计量的分布,就可以画出统计变量的概率密度函数。将计算出的皮尔曼相关系数带入统计变量,得到一个检验值,根据置信水平画出统计变量接受域和拒绝域