“网易云音乐”里有一项类似于淘宝“我的喜好”的“日推”功能,根据你经常听的歌曲类型,每日推送给你类似的音乐,几乎次次惊艳,而且大多都没听过,或者好久以前听过早就忘记了名字,或者之前不知道在哪听过 只是知道其中一部分旋律,根本不知道名字,等等。
参考了在北京实习时一个同事的分享以及在“知乎”上大神们的介绍,本文暂不考虑算法实现,仅仅从算法本身来学习一番,对IT世界里一些脑洞大开的想法做以分享。
如图,是日推算法的两种实现思路:
一、“潜在因子”算法
这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,具体用在日推上的套路是这样:
1、思路
每个用户(user)都有自己的偏好,比如A喜欢带有小清新的、吉他伴奏的、李健等元素(其实就是标签),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。
2、实现:
每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。模拟这样两个矩阵:
(1)用户-潜在因子矩阵Q:
表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。比如下面这样:
(2)潜在因子-音乐矩阵P
表示每种音乐含有各种元素的成分,比如下表中,音乐A是一个偏小清新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2……
利用这两个矩阵,我们能得出张三对音乐A的喜欢程度是:张三对小清新的偏好*音乐A含有小清新的成分+对重口味的偏好*音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……
即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69
每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵\tilde{R} 。(注,这里的破浪线表示的是估计的评分,接下来我们还会用到不带波浪线的R表示实际的评分):
因此我们队张三推荐四首歌中得分最高的B,对李四推荐得分最高的C,王五推荐B。
如果用矩阵表示即为:
{R} =QP^{T}
下面问题来了,这个潜在因子(latent factor)是怎么得到的呢?
由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的,事实上我们能获得的数据只有用户行为数据。我们沿用 @邰原朗的量化标准:单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5,在分析时能获得的实际评分矩阵R,也就是输入矩阵大概是这个样子:
事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵{R}
和实际的评分矩阵不要相差太多,也就是求解下面的目标函数:
min_{P,Q} \Sigma (r_{ui}-q_{i}p_{u}^{T})^2
这里涉及到最优化理论,在实际应用中,往往还要在后面加上2范数的罚项,然后利用梯度下降法就可以求得这P,Q两个矩阵的估计值。这里我们就不展开说了。例如我们上面给出的那个例子可以分解成为这样两个矩阵:
这两个矩阵相乘就可以得到估计的得分矩阵:
将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。
添加标签的思想在我们写CSDN博客的时候,其实就有了,通过分类,细化查询。
二、“喜欢这个商品的人,也喜欢某某”算法
1、发明
amazon发明的“喜欢这个商品的人,也喜欢某某”算法。其核心是数学中的“多维空间中两个向量夹角的余弦公式”。
“商品推荐”系统的算法( Collaborative filtering )分两大类,
第一类,以人为本,先找到与你相似的人,然后看看他们买了什么你没有买的东西。这类算法最经典的实现就是“多维空间中两个向量夹角的余弦公式”;
第二类, 以物为本直接建立各商品之间的相似度关系矩阵。这类算法中最经典是'斜率=1' (Slope One)。amazon发明了暴力简化的第二类算法,‘买了这个商品的人,也买了xxx’。
我们先来看看第一类,最大的问题如何判断并量化两人的相似性,思路是这样 --
例子:
有3首歌放在那里,《最炫民族风》,《晴天》,《Hero》。
A君,收藏了《最炫民族风》,而遇到《晴天》,《Hero》则总是跳过;
B君,经常单曲循环《最炫民族风》,《晴天》会播放完,《Hero》则拉黑了
C君,拉黑了《最炫民族风》,而《晴天》《Hero》都收藏了。
我们都看出来了,A,B二位品味接近,C和他们很不一样。
那么问题来了,说A,B相似,到底有多相似,如何量化?
我们把三首歌想象成三维空间的三个维度,《最炫民族风》是x轴,《晴天》是y轴,《Hero》是z轴,对每首歌的喜欢程度即该维度上的坐标,并且对喜欢程度做量化(比如: 单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-1 , 拉黑=-5 )。那么每个人的总体口味就是一个向量,A君是 (3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。 我们可以用向量夹角的余弦值来表示两个向量的相似程度, 0度角(表示两人完全一致)的余弦是1, 180%角(表示两人截然相反)的余弦是-1。
根据余弦公式, 夹角余弦 = 向量点积/ (向量长度的叉积) = ( x1x2 + y1y2 + z1z2) / ( 跟号(x1平方+y1平方+z1平方 ) x 跟号(x2平方+y2平方+z2平方 ) )
可见A君B君夹角的余弦是0.81 ,A君C君夹角的余弦是 -0.97 ,公式诚不欺我也。
以上是三维(三首歌)的情况,如法炮制N维N首歌的情况都是一样的。
假设我们选取一百首种子歌曲,算出了各君之间的相似值,那么当我们发现A君还喜欢听的《小苹果》B君居然没听过,相信大家都知道该怎么和B君推荐了吧。
第一类以人为本推荐算法的好处我想已经很清楚了,那就是精准!代价是运算量很大,而且对于新来的人(听得少,动作少),也不太好使,所以人们又发明了第二类算法。假设我们对新来的D君,只知道她喜欢最炫民族风,那么问题来了,给她推荐啥好咯?
如图,推荐《晴天》!
第二类算法的好处大家也看出来了,简单粗暴好操作,可精度差了点。
所以,各家网站真正的推荐算法,是他们在综合上述两类算法的基础上,各自研制并且不断地改进调节的,外人不得而知!
由此可见,通过类似amazon以及纸牌屋中的算法分析,网友们预测了网易云音乐的日推算法,也让小菜的我领略到了算法世界的神奇,只有想不到,一旦想到了就能做到。
附注:(知乎中的讨论帖)。
来源:CSDN
作者:暂7师师长常乃超
链接:https://blog.csdn.net/u013047584/article/details/54891374