hadoop开发环境搭建

Spark1.0.0 应用程序部署工具spark-submit

女生的网名这么多〃 提交于 2019-12-06 19:36:45
问题导读: 1、Spar的应用程序部署工具都提供哪些功能? 2、Spar的应用程序部署工具有哪些? 3、什么是spark-submit? 随着Spark的应用越来越广泛,对支持多资源管理器应用程序部署工具的需求也越来越迫切。Spark1.0.0的出现,这个问题得到了逐步改善。从 Spark1.0.0开始,Spark提供了一个容易上手的应用程序部署工具bin/spark-submit,可以完成Spark应用程序在 local、Standalone、YARN、Mesos上的快捷部署。 1:使用说明 进入$SPARK_HOME目录,输入bin/spark-submit --help可以得到该命令的使用帮助。 hadoop @wyy :/app/hadoop/spark100$ bin/spark-submit --help Usage: spark-submit [options] <app jar | python file> [app options] 复制代码 Options: --master MASTER_URL spark://host:port, mesos://host:port, yarn, or local. --deploy-mode DEPLOY_MODE driver运行之处,client运行在本机,cluster运行在集群 --class CLASS_NAME

Hadoop_简介_01

旧巷老猫 提交于 2019-12-06 03:23:46
1. Apache Hadoop    1.1 Hadoop介绍     Hadoop是Apache旗下的一个用 java 语言实现的开源软件框架, 是一个开发和运行处理大规模数据的软件平台. 允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理 . Hadoop不会跟某种具体的行业或者某个具体的业务挂钩, 他只是一种用来做海量数据分析处理的工具.          狭义上说, Hadoop指Apache这款开源框架, 其核心组件有:       HDFS (分布式文件系统) : 解决海量数据存储       YARN (作业调度和集群资源管理的框架) : 解决资源任务调度       MAPREDUCE (分布式运算编程框架) : 解决海量数据计算     广义上说, Hadoop通常是指一个更广泛的概念 -- Hadoop生态圈.          当下的Hadoop已经成长为一个庞大的 体系 .     HDFS: 分布式文件系统     MAPREDUCE: 分布式运算程序开发框架     HIVE: 基于Hadoop的分布式数据仓库, 提供基于SQL的查询数据操作     HBASE: 基于Hadoop的分布式海量数据数据库     ZOOKEEPER: 分布式协调服务基础组件     Mahout: 基于MR / Spark /

基于Livy的Spark提交平台搭建与开发

江枫思渺然 提交于 2019-12-05 16:35:26
  为了方便使用Spark的同学提交任务以及加强任务管理等原因,经调研采用Livy比较靠谱,下图大致罗列一下几种提交平台的差别。   本文会以基于mac的单机环境搭建一套Spark+Livy+Hadoop来展示如何提交任务运行,本文只针对框架能够运行起来,至于各个组件参数怎么配置性能更好,各位兄弟就自行找度娘了。 一.搭建Spark 访问http://spark.apache.org/downloads.html下载安装包,然后按照以下步骤操作即可。 1.下载完成后解压到某个目录下,在该目录执行以下命令 tar zxvf spark-2.1.0-hadoop2.7.tgz 2.配置Spark环境变量 Mac环境变量一般在/etc/profile下配置,打开profile文件在文件中添加。 #SPARK VARIABLES START export SPARK_HOME =/usr/local/spark-2.1.0-hadoop2.7 export PATH = ${PATH}:${SPARK_HOME}/bin #SPARK VARIABLES END 3.配置Java环境 同样在/etc/profile下配置。在此之前已经安装scala和jdk相关环境。将java安装目录添加到里面export JAVA_HOME =/Library/java

Hadoop

纵饮孤独 提交于 2019-12-05 06:39:58
  MapReduce: 能够将某个处理任务分割成任务单元 , 然后并行运行在集群中的各节点上 , 并且最后能搜集各节点上的结果做二次处理 , 直至得到最终结果的并行处理框架 ;     MapReduce 既是一种编程模型,也是一种与之关联的、用于处理和产生大数据集的实现。用户要特化一个 map 程序去处理 key/value 对,并产生中间 key/value 对的集合,以及一个 reduce 程序去合并有着相同 key 的所有中间 key/value 对。     计算过程就是输入一组 key/value 对,再生成输出一组 key/value 对。 MapReduce 库的使用者用两个函数来表示这个过程: map 和 reduce 。     map 由使用者编写,使用一个输入 key/value 对,生成一组中间 key/value 对。 MapReduce 库将有着相同中间 key I 的中间 value 都组合在一起,再传给 reduce 函数。     reduce 也由使用者编写,它接受一个中间 key I 和一组与 I 对应的 value 。它将这些 value 合并为一个可能更小的 value 集合。通常每个 reduce 调用只产生 0 或 1 个输出 value 。中间 value 是通过一个迭代器提供给 reduce 函数的

【Zookeeper系列一】Zookeeper应用介绍与安装部署

心不动则不痛 提交于 2019-12-04 15:37:28
#0 系列目录# Zookeeper系列 【Zookeeper系列一】Zookeeper应用介绍与安装部署 【Zookeeper系列二】ZooKeeper典型应用场景实践 【Zookeeper系列三】ZooKeeper Java API使用 【Zookeeper系列四】ZooKeeper 分布式锁实现 【Zookeeper系列五】ZooKeeper 实时更新server列表 【Zookeeper系列六】Zookeeper 工作原理 Zookeeper源码 【Zookeeper源码一】Zookeeper 源码环境搭建 【Zookeeper源码二】Zookeeper 客户端创建连接过程分析 【Zookeeper源码三】Zookeeper 单机版服务器介绍 【Zookeeper源码四】Zookeeper 集群版服务器介绍 【Zookeeper源码五】Zookeeper 集群版建立连接过程 Zookeeper应用 基于ZooKeeper的分布式Session实现 #1 Zookeeper概述# ZooKeeper是一个为分布式应用所设计的分布的、开源的协调服务,它主要是 用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务 。ZooKeeper本身可以 以Standalone模式安装运行 ,不过

使用Maven开发Hadoop

自闭症网瘾萝莉.ら 提交于 2019-12-04 03:53:24
环境为Hadoop2.5.2( 如何搭建环境教程 ),在pom.xml中加入以下配置文件。 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.5.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.5.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.5.2</version> </dependency> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>3.8.1</version> <scope>test</scope> </dependency> 测试HDFS public class HdfsTest { public static

Hadoop(一)之初识大数据与Hadoop

旧巷老猫 提交于 2019-12-03 14:31:40
前言   从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢?   学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一、引言(大数据时代) 1.1、从数据中得到信息   我们看一张图片:        我们知道这个图片上的人叫张小妹,年龄20岁,职业模特。但是如果只有数据没有图片的话,就没有意义的数据了。所以数据一定是在特定的环境下才有意义的。   我们再来看一张图片:        从这张图片分析出:从纵向分析,范范和张帆的购买东西十分的相似,所以如果要推荐东西给张帆的话,我们就可以选择小米手环。           从横向分析,无效鼠标,linux编程思想,皮鞋和小米手环都卖的比较火,其他几样销量少,所以我们推荐就可以把这几样放上去。 1.2、大数据表象概念   大家理解什么是大数据吗,那大数据到底有多大!我们就以百度的数据来分析一下:        首先:1PB=1024T   分析:我们就看最小的它每天产生的日志就可以看出来,百度每天要产生100TB~1PB的日志数据。一般我们电脑的硬盘是1T的。那就需要电脑的100个硬盘到1024块硬盘,你想想是多么的恐怖! 回到顶部(go to top) 二、大数据基础 2.1、什么是大数据?  

Hadoop(二)搭建伪分布式集群

烂漫一生 提交于 2019-12-03 14:27:32
Hadoop(二)搭建伪分布式集群 前言   前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。   -用于对MapReduce程序的逻辑进行调试,确保程序的正确。 1.2、伪分布式模式(Pseudo-Distrubuted Mode)   -Hadoop的守护进程运行在本机机器,模拟一个小规模的集群    -在一台主机模拟多主机。   -Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。   -在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTraker服务,来管理的独立进程。在单机模式之上增加了代码调试功能

Hadoop家族学习路线图(转)

纵然是瞬间 提交于 2019-12-03 06:09:27
Hadoop家族学习路线图 Hadoop家族系列文章 ,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在Hadoop原有技术基础之上,出现了Hadoop家族产品,通过“大数据”概念不断创新,推出科技进步。 作为IT界的开发人员,我们也要跟上节奏,抓住机遇,跟着Hadoop一起雄起! 关于作者: 张丹(Conan), 程序员Java,R,PHP,Javascript weibo:@Conan_Z blog: http://blog.fens.me email: bsspirit@gmail.com 转载请注明出处: http://blog.fens.me/hadoop-family-roadmap/ 前言 使用Hadoop已经有一段时间了,从开始的迷茫

Kylin-2.6.2集群部署

早过忘川 提交于 2019-12-03 04:55:39
1. 集群节点规划与说明 rzx1 all rzx2 query rzx3 query 说明: Kylin节点角色有三种: all: 包含query和job query: 查询节点 job: 工作节点 2. Kylin依赖的其他大数据组件非常多,下列列表是安装kylin需要的组件 JDK 1.8<必须项> HADOOP<必须项,hdfs作为数据存储基础,这里版本是hadoop-2.7.7> ZOOKEERER<必须项,集群协调,这里版本zookeeper-3.4.13> HBASE<必须项,可以理解为数据中间件,这里版本hbase-2.0.4> HIVE<必须项,kylin OLAP基础数仓或可以理解为OLAP数据源,这里版本hive-2.3.4> KAFKA<可选项,这里不安装> 3. 在已下载解压好的目录下 <下载地址: https://archive.apache.org/dist/kylin/> 在rzx1节点下: vim conf/kylin.properties: kylin.server.mode=all kylin.server.cluster-servers=rzx1:7070,rzx2:7070,rzx3:7070 kylin.coprocessor.local.jar=/home/bigdata/software/kylin-2.6.2/lib/kylin