「资源」每天花5h来学习Hadoop+Spark大数据巨量分析与机器学习实战

落花浮王杯 提交于 2020-03-07 19:30:19

本文的主题是Hadoop+Spark大数据分析与机器学习。众所周知,Hadoop是运用最多的大数据平台,然而Spark 异军突起,与Hadoop兼容而且运行速度更快,各大公司也开始加入Spark的开发。例如,IBM公司加入Apache Spark社区,打算培育百万名数据科学家。谷歌(Google)公司与微软公司也分别应用了Spark的功能来构建服务、发展大数据分析云与机器学习平台。这些大公司的加入,也意味着未来更多公司会采用Hadoop+ Spark进行大数据的数据分析。

然而,目前市面上虽然很多大数据的书,但是多半偏向理论或应用层面的介绍,网络上的信息虽然很多,但是也很杂乱。本文希望能够用浅显易懂的原理介绍和说明,再加上上机实践操作、范例程序,来降低大数据技术的学习门槛,带领读者进入大数据与机器学习的领域。当然整个大数据的生态系非常庞大,需要学习的东西太多。希望读者通过本文的学习,有了基本的概念后,能比较容易踏入这个领域,以便继续深入与研究其他大数据的相关技术。在这里插入图片描述

文档内容简介

本文档从浅显易懂的“大数据和机器学习”原理介绍和说明入手,讲述大数据和机器学习的基本概念,如:分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用。为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单台Windows系统上通过Virtual Box虚拟机安装多台Linux 虚拟机,如何建立Hadoop集群,再建立Spark开发环境。文中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照文中介绍的搭建过程,同样可以将实践平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。

章节介绍

第1章大数据与机器学习:介绍大数据、Hadoop、HDFS、MapReduce、 Spark、 机器学习
第2章VirtualBox虚拟机软件的安装:上机实践操作。安装Virtual Box虚拟机,让你可以在Windows系统上安装多台Linux虚拟机
第3章Ubuntu Linux操作系统的安装:上机实践操作。安装Ubuntu Linux操作系统
在这里插入图片描述
第4章Hadoop Single Node Cluster的安装:上机实践操作。安装单台机器的Hadoop Single Node Cluster
第5章Hadoop Multi Node Cluster的安装:上机实践操作。安装多台机器的Hadoop Multi Node Cluster
第6章Hadoop HDFS命令:上机实践操作。示范如何使用HDFS命令
在这里插入图片描述
第7章Hadoop MapReduce:介绍Hadoop MapReduce的原理。WordCount.java范例程序。示范使用Hadoop MapReduce计算文章内的每一个单词出现的次数

第8章Spark的安装与介绍:上机实践操作。Spark安装与spark-shell交互界面在不同环境中的运行示范

第9章Spark RDD:上机实践操作。介绍Spark最基本的功能RDD ( Resilient Distributed Dataset,弹性分布式数据集)的基本运算
在这里插入图片描述
第10章Spark的集成开发环境:上机实践操作。安装集成开发环境(IDE)。WordCount.scala范例程序。示范使用SparkMapReduce计算文章内的每一个单词出现的次数

第11章创建推荐弓|擎:介绍如何使用Spark MLlib 以MovieLens 数据集建立电影的推荐引擎(Recommendation Engine)。Recommend.scala范例程序。示范如何获取数据、训练模型、推荐用户或电影,建立电影的推荐系统。AlsEvalution.scala范例程序。示范如何调试推荐引擎参数,找出最佳的参数组合在这里插入图片描述
第12章StumbleUpon数据集:StumbleUpon数据集属于二元分类问题,可以根据网页的特征预测哪些网页是暂时性的或是可以长久存在的

第13章决策树二元分类:RunDecisionTreeBinary.scala范例程序。示范如何使用决策树二元分类分析StumbleUpon数据集,预测哪些网页是暂时性的或可以长久存在的,并且找出最佳的参数组合,提高预测准确度

第14章逻辑回归二元分类:RunLogisticRegressionWithSGDBinary.scala范例程序。示范如何使用决策树二元分类分析StumbleUpon数据集,预测哪些网页是暂时性的或是可以长久存在的,并且找出最佳的参数组合,提高预测准确度

第15章支持向量机SVM二元分类:RunSVMWithSGDBinary.scala范例程序。示范如何使用支持向量机SVM二元分类分析StumbleUpon数据集,预测哪些网页是暂时性的或是可以长久存在的,并且找出最佳的参数组合,提高预测准确度
在这里插入图片描述
第16章朴素贝叶斯二元分类:RunNaiveBayesBinary.scala范例程序。示范如何使用朴素贝叶斯(Naive-Bayes)二元分类分析StumbleUpon 数据集,预测哪些网页是暂时性的或是可以长久存在的,并且找出最佳的参数组合,提高预测准确度

第17章决策树多元分类:RunDecisionTreeMulti.scala范例程序。示范如何使用决策树多元分类分析Covtype数据集(森林覆盖植被),根据不同的土地条件可以预测该地的植被,并且找出最佳的参数组合,提高预测准确度

第18章决策树回归分析:RunDecisionTreeRegression.scala范例程序。示范介绍决策树回归分析,分析Bike Sharing数据集。根据天(和假日条件,可以预测每一小时租借的数量, 并且找出最佳的参数组合,提高预测准确度
在这里插入图片描述
第19章使用Apache Zeppelin数据可视化:上机实践操作。安装Zeppelin并使用ml-100k数据集,示范使用Spark SQL进行数据分析与数据可视化
在这里插入图片描述
一般人可能会认为大数据需要在很多台机器的环境下才能学习,实际上通过虚拟机的方法,就能在自家电脑上演练建立Hadoop集群,并且建立Spark开发环境。本书以实际操作介绍Hadoop中的MapReduce与HDFS基本概念,以及Spark中的RDD与MapReduce基本概念。

以大数据分析实际案例-MoiveLens(电影推荐引擎)、StumbleUpon (网页二元分类)、CovType (森林覆盖植被运算)、Bike Sharing ( Ubike类租赁预测分析)。配合范例程序代码详解各种机器学习算法,示范如何获取数据、分析数据、建立模型、预测结果,由浅入深地介绍Spark机器学习。

这份《Hadoop+Spark大数据》小编已经为大家整理好了
在这里插入图片描述

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!