Apache Mahout

推荐机制 协同过滤和基于内容推荐的区别

时光毁灭记忆、已成空白 提交于 2020-11-22 01:26:53
参考ibm文章 https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html 该系列分为三部分 第 2 部分: 深入推荐引擎相关算法 - 协同过滤 第 3 部分: 深入推荐引擎相关算法 - 聚类 “探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解和快速构建适合自己的推荐引擎。 信息发现 如今已经进入了一个数据爆炸的时代,随着 Web 2.0 的发展, Web 已经变成数据分享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。 在这样的情形下,搜索引擎(Google,Bing,百度等等)成为大家快速找到目标信息的最好途径。在用户对自己需求相对明确的时候,用搜索引擎很方便的通过关键字搜索很快的找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,那是因为在很多情况下,用户其实并不明确自己的需要

mahout从入门到放弃--安装(1)

吃可爱长大的小学妹 提交于 2020-08-10 12:30:24
1.稀里糊涂下载 我的集群是hadoop 2.7.3 ,本来想找到对应的mahout版本,但是没有找到。本着安全原则,mahout最新版本是0.14.0,回退一个版本使用0.13.0 mahout地址 2.安装后 一波操作:解压到D:Zoo和配置好环境变量后,运行报错!!! D:\Zoo\apache-mahout-distribution-0.13.0\bin>mahout "===============DEPRECATION WARNING===============" "This script is no longer supported for new drivers as of Mahout 0.10.0" "Mahout's bash script is supported and if someone wants to contribute a fix for this" "it would be appreciated." "Mahout home set D:\Zoo\mahout-0.14.0" "ERROR: Could not find mahout-examples-*.job in D:\Zoo\mahout-0.14.0 or D:\Zoo\mahout-0.14.0/examples/target, please run 'mvn install

mahout从入门到放弃--安装(1)

百般思念 提交于 2020-08-10 12:29:32
1.稀里糊涂下载 我的集群是hadoop 2.7.3 ,本来想找到对应的mahout版本,但是没有找到。本着安全原则,mahout最新版本是0.14.0,回退一个版本使用0.13.0 mahout地址 2.安装后 一波操作:解压到D:Zoo和配置好环境变量后,运行报错!!! D:\Zoo\apache-mahout-distribution-0.13.0\bin>mahout "===============DEPRECATION WARNING===============" "This script is no longer supported for new drivers as of Mahout 0.10.0" "Mahout's bash script is supported and if someone wants to contribute a fix for this" "it would be appreciated." "Mahout home set D:\Zoo\mahout-0.14.0" "ERROR: Could not find mahout-examples-*.job in D:\Zoo\mahout-0.14.0 or D:\Zoo\mahout-0.14.0/examples/target, please run 'mvn install

Mahout推荐算法之SlopOne

不羁岁月 提交于 2020-05-04 04:38:23
一、 算法原理 有别于基于用户的协同过滤和基于item的协同过滤,SlopeOne采用简单的线性模型估计用户对item的评分。如下图,估计UserB对ItemJ的偏好 图(1) 在真实情况下,该方法有如下几个问题: 1. 为什么要选择UserA计算? 2. 对大量稀疏的情况如何处理,而这种情况是最为普遍的。 图(2) Item1和item2的相似度:((5-3)+(3-4))/2=0.5 Item1和Item3的相似度:(5-2)/1=3 Lucy对Item1的评估预估计为:((2+0.5)*2+(3+5)*1)/(2+1)=4.333 Item3和Item1的相似度:(2-3)/1=-1 Item3和Item2的相似度:(5-2)/1=3 Make对item3的评分预估计为:((4+3)*1+(3-1)*1)/(1+1)=4.5 通过以上例子可以看出:需要计算item对之间的平均差别,以及item对之间的差别次数。 Mahout给出的训练伪代码: for every item i for every other item j for every user u expressing preference for both i and j add the difference in u’s preference for i and j to an average 推荐伪代码: for

Hadoop及Spark学习路线及资源收纳

倖福魔咒の 提交于 2020-04-28 09:06:28
title: Hadoop及Spark学习路线及资源收纳 date: 2018-11-18 16:19:54 tags: Hadoop categories: 大数据 toc: true 点击查看我的博客: Josonlee’s Blog 版权声明:本文为博主原创文章,未经博主允许不得转载( https://blog.csdn.net/lzw2016/) 前言 本人大数据专业方向,收集学习一些相关文章,汇总如下。有些资源来源网络,出处不明,如有错误请告知,谢谢 资源不断更新中。。。 Hadoop 18.11.18 有的旧的官方文档盖楼: Hadoop 0.18文档 Hadoop新手学习指导 (出处: about云开发) 零基础学习hadoop到上手工作线路指导(初级篇) (出处: about云开发) 推荐一个博客分类 博主LanceToBigData:Hadoop 一、学习路线图 Hadoop家族学习路线图 开篇必读 Hive学习路线图 Mahout学习路线图 二、编程实践 Hadoop历史版本安装 用Maven构建Hadoop项目 Hadoop编程调用HDFS 用Maven构建Mahout项目 Mahout推荐算法API详解 用MapReduce实现矩阵乘法 从源代码剖析Mahout推荐引擎 Mahout分步式程序开发 基于物品的协同过滤ItemCF Mahout分步式程序开发

求职期间,我们遇到的大数据开发和大数据平台开发有什么区别?

你。 提交于 2020-03-23 16:22:33
3 月,跳不动了?>>> 求职期间,我们遇到的大数据开发和大数据平台开发有什么区别? 不少人问过我一个问题,大数据开发和大数据平台开发,有什么不一样?今天就这个话题说几句。先给大家上两张boss上的图: 首先,大数据开发通常指的是基于大数据产业链的一系列开发任务,涉及到大数据平台开发、大数据应用开发、大数据分析等,另外还包括数据采集产品的开发、数据整理产品的开发等等,如果向上延伸的话,部分大数据开发任务与人工智能开发任务也具有密切的联系。 大数据平台开发通常有两层含义,一层是进行大数据平台自身的开发,这属于研发级开发任务,比如大数据平台Hadoop就是采用Java语言开发的。整个大数据平台还涉及到一系列产品,包括HBase、Hive、Avro、Zookeeper、Pig、Mahout、Cassandra等,开发这些产品也需要一个庞大的团队。进行大数据平台研发的程序员往往需要具备丰富的开发经验,同时具备较强的研发能力,能够搭建出一个稳定的分布式计算体系。 另一层含义是在大数据平台下进行应用开发,比如在Hadoop、Spark平台下进行具体的大数据应用开发等,这部分开发通常属于应用级开发,难度要相对小一些,但是往往需要与具体的场景进行紧密的联系,需要开发者具备一定的行业背景知识。 目前大数据应用开发主要的任务有两个,其一是进行已有软件产品的大数据改造

mahout in action中文版

瘦欲@ 提交于 2019-12-05 15:27:18
mahout in action 中文翻译第1章初识mahout mahout in action 中文翻译 1. 初识Mahout 本章涵盖以下内容: Apache Mahout是什么? 现实中推荐系统引擎、聚类、分类概述 配置mahout 读者可能从本书的标题中依然知晓,本书是一本使用的工具书,讲解如何将mahout应用于业界。Mahout是Apache开源的机器学习库。它实现的算法都被归入机器学习或者集体智慧的范畴,但是在这里Mahout主要注重协同过滤/推荐引擎、聚类和分类。 Mahout是可伸缩的。Mahout致力于实现海量数据,单机无法处理情况下的机器学习工具。在目前阶段,这种可伸缩性由java实现,有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口,预装好的服务器。以及安装等功能。它是一个利于开发者使用的工具框架。 1.1 Mahout适合你吗? 你也许想知道-Mahout是一个什么工程,或者是一本什么书? 如果你在找一本机器学习的教材,那本书就不适合了。本书没有尝试去全面解释各种算法和展现技术的理论基础和来源。阅读本书可以,但不保证,能够对机器学习技术,类似矩阵、向量等相关概念的熟悉。 如果你正在开发现代智能应用,那本书很适合。这本书提供了一种实践非理论的处理方式,有完整的实例、解决方法指南

初学者学hadoop只有这些基础还不够

只愿长相守 提交于 2019-12-01 15:45:46
“学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语的话回答就是:难不会,会不难! 趁着学校放假的时间,写了一些hadoop学习分享的文章。刚开始写的几篇稍微有点乱,其中有一篇就是在说学习hadoop需要什么样基础的。所谓的难不会,会不难,必然也是建立你现在的基础之上的。假定你连基础的计算机基础都没有,那可能真的就是“难不会”了。如果你是有一个良好的计算机基础的,比如,虚拟机的配置你会、拥有JAVA基础和Linux操作基础,那学习hadoop对你来可能就是“会不难”哦! 当你看了很多介绍“学习hadoop需要什么基础”的文章后,你一定会得出一个结论,那就是学习hadoop所必须的三个基础技能:JAVA基础、Linux基础、虚拟机基础(上面已经说过了)。所有的文章在说完这个三个基础之后,好像在告诉我们所有人,你只要有这个三个基础就一定能够学好hadoop,从此走上人生巅峰······其实,也不尽然,只有当你真正接触了hadoop,你才会发现真正的问题所在。 接触过hadoop的人都知道,单独搭建hadoo里每个组建都需要运行环境、修改配置文件、测试等过程。如果仅仅是安装一下运行环境就行了,那你就大错特错了,几乎每个组件都是坑

【干货】Hadoop大数据学习线路图

感情迁移 提交于 2019-11-30 15:59:08
入门知识 对于我们新手入门学习hadoop的朋友来说,首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的: 云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务地交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算也可作为一种商品通过互联网进行流通。 想学习好大数据可以关注公众号程序员大牛 有视频资源分享一起学习 什么是云计算? 什么是云计算技术? 在世界上云计算已经大面流行,有很流行的Google、Drive、SkyDrive、Dropbox、亚马逊云服务等等。在国内百度云存储、360云存储都是比较流行的。 我们接下来就应该会想到大数据存储,目前开源市场上最流行的应该是hadoop分布式存储,已经有大部分互联网公司已经开始使用,例如百度、360、阿里巴巴,其中一部分公司已经把hadoop作为他们的核心产品例如英特尔

Hadoop家族学习路线图

和自甴很熟 提交于 2019-11-30 14:28:29
Hadoop家族系列文章 , 主要介绍 Hadoop 家族产品,常用的项目包括Hadoop, Hive, Pig, HBase , Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无 一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在Hadoop原有技术基础之上,出现了Hadoop家族产品,通 过“大数据”概念不断创新,推出科技进步。 作为IT界的开发人员,我们也要跟上节奏,抓住机遇,跟着Hadoop一起雄起! 想学习好大数据可以关注公众号程序员大牛 有视频资源分享一起学习 前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来。不仅能加深印象