基于hadoop构建智能推荐系统:第1篇 用户行为数据分析并导出到hdfs
这个分类 我主要想分享基于 hadoop 构建智能推荐系统的过程思路、程序设计和系统架构方面的一些技巧心得,至于 hadoop 、 sqoop 、 hbase 的安装和使用我就不多讲了,网上已经有很多这方面的文章了 让我们直奔主题吧。 1 、 我们要搭建一个智能推荐系统最重要的是什么呢?不是算法、也不是系统的本身,最关键是准确分析用户的行为数据,最终得出一个用户偏好表。有了这个用户偏好 表,我们可以做的事太多了,比如计算用户的相似度、计算物品的相似度、把用户按照行为进行聚类。。。但是这一切的前提都必须有一个“用户偏好表”(如图表 1-1 )。 图表 1-1 用户偏好表 Uid (用户 id ) Itemid (物品 id ) Preference (偏好值) Timestamp (时间戳) 1001 1005 4.5 123278545 1002 1008 3.5 123577865 1001 1008 5.0 123478588 2 、 (下面我将以视频网站的智能推荐系统为例子) 为了得到这样的一张表,我们首先要对用户的行为进行分析, 视频网站 的用户行为一般为 观看记录、评分记录、顶 / 踩、评论记录。。。 我们按照预先设定的权重(图表 2-1 ),将这些行为数据进行简单的权重相加,得出一个比较粗糙的偏好评分。 图表 2-1 行为权重(后面的行为记分 覆盖前面的行为记分) 行为