先说结论:
皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进.
如果参加过高考, 那么肯定会这么一个公式:
cos<a, b> = a • b / |a|•|b|
假设a = (3, 1, 0), b = (2, -1, 2)
分子是a, b两个向量的内积, (3, 1, 0) • (2, -1, 2) = 3•2 + 1•(-1) + 0•2 = 5
分母是两个向量模(模指的是向量的长度)的乘积.
总之这个cos的计算不要太简单...高考一向这是送分题...
然后问题来了, 皮尔逊系数和这个cos啥关系...
皮尔森相关系数计算公式
其实皮尔逊系数就是cos计算之前两个向量都先进行中心化(centered)...就这么简单
来源:oschina
链接:https://my.oschina.net/u/4389791/blog/4488252