hadoop集群搭建

Hadoop集群搭建

蓝咒 提交于 2020-02-09 00:28:44
1.集群简介 Hadoop集群具体来说包括两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。 HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode/DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有ResourceManage/NodeManager 2.服务器准备 操作系统: 虚拟机系统 节点 域名/IP地址 Centos6 NameNode/ResourceManage Master/192.168.1.10 Centos6 DataNode/NodeManageer Salve11/192.168.1.11 Centos6 DataNode/NodeManageer Salve12/192.168.1.12 Centos6 DataNode/NodeManageer Salve13/192.168.1.13 Java版本 java version "1.8.0_151" Hadoop版本 3.网络环境准备 3.1.设置IP地址 分别设置节点IP,在每个节点上执行一下步骤: vi /etc/sysconfig/network-scripts/ifcfg-eth0 修改如下: DEVICE=eth0 HWADDR=08:00:27:53:7E:9D TYPE=Ethernet UUID=c8127b91

2.Hadoop_HDFS1.x_伪分布式搭建

跟風遠走 提交于 2020-02-06 02:54:27
环境 CentOS 6.5 Apache Hadoop 2.6.5 JDK 7 (Hadoop3.0以上需要JDK8) hadoop-2.6.5.tar.gz 搭建步骤 参考官方文档: https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 安装jdk7 # 安装 rpm -i jdk-7u67-linux-x64.rpm whereis java # 配置环境变量 vi + /etc/profile # 添加下面代码到profile 末尾 export JAVA_HOME = /usr/java/jdk1.7.0_67 PATH = $PATH : $JAVA_HOME /bin # 使profile生效 . /etc/profile # 验证是否配置成功 jps 设置ssh免密钥登陆 Now check that you can ssh to the localhost without a passphrase: $ ssh localhost If you cannot ssh to localhost without a passphrase, execute the following

Hadoop平台常用配置及优化建议

依然范特西╮ 提交于 2020-02-03 00:13:09
  当发现作业运行效率不理想时,需要对作业执行进行性能监测,以及对作业本身、集群平台进行优化。优化后的集群可能最大化利用硬件资源,从而提高作业的执行效率。本文记录了在hadoop集群平台搭建以及作业运行过程中一些常用优化手段,在使用中会不断补充,不断翻阅。 一、对应用程序进行调优 1、 避免输入大量小文件 。大量的小文件(不足一个block大小)作为输入数据会产生很多的Map任务(默认一个分片对应一个Map任务),而每个Map任务实际工作量又非常小,系统要花更多的时间来将这些Map任务的输出进行整合。如果将大量的小文件进行预处理合并成一个或几个大文件,任务执行的效率可能会提升几十倍。可手动将小文件合并成大文件,或通过Hadoop的SequenceFile、CombineFileInputFormat将多个文件打包到一个输入单元中,使得每个Map处理更多的数据,从而提高性能。 2、 预判并过滤无用数据 。可以使用一些过滤工具,在作业执行之前将数据中无用的数据进行过滤,可极大提高MapReduce执行效率。Bloom Filter是一种功能强大的过滤器,执行效率高,时间复杂度为O(1),缺点是存在一定的误判可能,详细参考《Bloom Filter概念和原理》。当将一个非常大的表和一个非常小的表进行表连接操作时,可以使用Bloom Filter将小表数据作为Bloom

hadoop集群搭建

左心房为你撑大大i 提交于 2020-02-02 10:34:34
hadoop集群搭建   1.安装配置Linux操作系统     01 建立master虚拟机(NameNode)     02 配置环境       001)设置主机名       002)配置网络       003)Xshell 与 Xftp       004)Java环境配置       005)关闭防火墙     03 克隆虚拟机       001)配置主机名、网络       002)配置主机映射(三台主机均要配置)       003)配置ssh免密登录   2.配置Hadoop集群     01 master节点操作       001)解压hadoop jar包       002)修改slaves配置文件       003)修改hadoop-env.sh配置文件       004)修改 core-site.xml配置文件       005)修改hdfs-site.xml配置文件       006)修改yarn-site.xml配置文件       007)修改mapred-site.xml配置文件     02 将hadoop的安装目录拷贝到其他子节点     03 启动hadoop TOC hadoop集群搭建 1.安装配置Linux操作系统 采用软件、工具:VMware workstation、CentosOS6.5 新建虚拟机-->自定义安装

Hadoop集群配置过程中需要注意的问题

大城市里の小女人 提交于 2020-02-02 09:26:56
环境:VMwareWorkstation8.0 和 Ubuntu14.04 1. 使用三台虚拟机搭建Hadoop集群 2. 一定要在每台机器上配置ssh免密码登录 3. 由于需要给/etc/hosts文件配置3台虚拟机的IP,所以尽量给三台虚拟机设置静态IP。不然即使之前整个集群搭建成功了,但是当某一台的IP变化后,这个集群又不可以使用了。 例如报如下错误: 当重新将/etc/hosts中各个节点的ip以及mapred-site.xml中master节点的ip改正确后,在重新启动hadoop就好了,所以尽量设置静态ip。 4. 很多教程都会要求新建一个hadoop用户,如果对用户和用户组权限不太熟悉,个人觉得直接在root用户下去操作也可以,中间也不会出现没有访问权限的问题。 5. 对文件/etc/profile修改后,一定要使用source /etc/profile去执行一遍,不然配置的环境变量不会生效。 6. 重启虚拟机后,需要重新启动Hadoop,启动成功后,除了hadoop/bin目录之外,在其他地方使用hadoop命令报错“命令不存在”,很有可能是需要使用source /etc/profile来使该文件中关于hadoop安装位置的环境变量生效。 来源: https://www.cnblogs.com/JaneZSS/p/6132349.html

hadoop 集群搭建与注意点

送分小仙女□ 提交于 2020-02-02 08:54:42
一花一世界 一叶一菩提。 这应该是第二次学习hadoop , 第一次是两年前,刚开始找工作,当时个人眼界 认为ssh 与移动app 开发比较流行,至于hadoop 是一个比较高端的东西,还有一个原因就是当时急需摆脱对父母的依赖,需要一份工作,用活自己;这两年过去了,再次从新审视大数据,感觉一切又回到起点,只不过个人心态,经历,行业环境都发生改变。 我用hadoop 2.7.3 算是比较新版本。 http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz (我用浏览器,百度云下载都失败, 最后用迅雷下载成功); hadoop 基本知识: (1)HADOOP是apache旗下的一套开源软件平台 (2)HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 ; (3)HADOOP的核心组件有 A.HDFS(分布式文件系统) B.YARN(运算资源调度系统) C.MAPREDUCE(分布式运算编程框架) hadoop 历史: (1) 当时 Nutch 爬虫框架, 面对海量的网页,面临两大瓶颈: 一个海量数据存储索引问题, 另外就是网页价值计算; (2)2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案: 一个是谷歌分布式存储GFS

大数据学习路线

心不动则不痛 提交于 2020-02-02 03:16:50
大数据处理从hadoop开始经过了几年的发展,生态越来越丰富,也越来越重要。就从目前的各个招聘网站来看也是薪资最高的。但是对于想进入大数据方面的开发人员从何处学习呢?我在网络收集了一些相关的资源,希望可以帮助到大家。 大数据处理流程与应用 一、Github上的学习资源BigData-Notes Github地址 : https://github.com/heibaiying/BigData-Notes 这个github上的资源是最为丰富的。该资源中详细的介绍了大数据学习的各个方面。从大数据收集、存储、分析、实时计算、还有其他相关的辅助技术。 1、数据收集:Flume 、Logstash、Kibana 2、数据存储:Hadoop HDFS 、KFS、GFS 3、数据分析:Hadoop MapReduce、Spark、Flink、Storm 4、实时计算:Spark、Flink、Storm 大数据学习路线图 二、Flink实时计算框架flink-learning Github地址 :https://github.com/zhisheng17/flink-learning 该资源介绍了flink相关的知识点,同时也包含与各种中间件集成的例子。是个不错的学习资源。 总之学习大数据要先学会相关的开发语言。目前大数据相关的开发语言Java、Scala。另外就是要知道相关的大数据收集相关的框架了

hadoop安装为什么需要关闭防火墙

纵饮孤独 提交于 2020-01-31 20:28:22
1 hadoop搭建无论是伪分布式还是集群,都要关闭防火墙,关闭原因是什么? 集群其实现在没什么安全性考虑的 因为都是内网搭建的,对外还有一个服务器的,那个服务器有防火墙,由它来访问内网集群,如果内网内开启防火墙,内网集群通讯会出现很多问题。 在部署hadoop时,好多资料上都写了要关闭防火墙,如果不关闭可能出现节点间无法通信的情况,于是大家也都这样做了,因此集群通信正常。当然集群一般是处于局域网中的,因此关闭防火墙一般也不会存在安全隐患 来源: 51CTO 作者: wxbo1 链接: https://blog.51cto.com/9153232/2318194

hadoop大数据基础概念解读(一)

穿精又带淫゛_ 提交于 2020-01-28 08:06:40
前言:近几年大数据应用越来越火,各行各业都在利用大数据为自己服务,现在出去,如果说自己公司没用上大数据或者不知道点大数据的东西,感觉都不是IT的,那么今天小编就带大家从基础认识认识大数据。 1 hadoop简介 目前来看大数据应用当然有很多,hadoop,spark,mapR,EMC等一堆技术。今天我们来说说hadoop, 简单来讲Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。 作用:储存数据,查询数据,综合分析 大数据特点:大量,多样,实时,不确定 2 hadoop组成 Hadoop:Java编写的软件框架,以支持数据密集型分布式应用 ZooKeeper:高可靠性分布式协调系统 MapReduce:针对大数据的灵活的并行数据处理框架 HDFS:Hadoop分布式文件系统 Oozie:负责MapReduce作业调度 Hbase:Key-value数据库 Hive:构建在MapRudece之上的数据仓库软件包 Pig:Pig是架构在Hadoop之上的高级数据处理层。Pig Latin语言为编程人员提供了更直观的定制数据流的方法。 3 基础模型 基础模型 4 应用场合 ※庞大的数据量 ※较少或没有数据依赖 ※包含结构化和非结构化数据 ※适合大规模的并行处理 5 特点 复杂的版本管理,版本管理比较混乱,各种版本层出不穷,在使用的时候难以选择一个恰当的版本;

大数据之Hadoop环境搭建

好久不见. 提交于 2020-01-26 03:38:41
Hadoop由GNU / Linux平台及其版本支持。因此,我们必须安装一个Linux操作系统来设置Hadoop环境。如果您有除Linux以外的操作系统,您可以在其中安装Virtualbox软件,并在Virtualbox内部安装Linux。 安装前设置 在将Hadoop安装到Linux环境之前,我们需要使用ssh(Secure Shell)来设置Linux。按照以下步骤设置Linux环境。 创建用户 在开始时,建议为Hadoop创建一个单独的用户,以便将Hadoop文件系统与Unix文件系统隔离。按照以下步骤创建用户: 使用命令“su”打开根。 使用命令“useradd username”从root帐户创建用户。 现在您可以使用命令“su username”打开现有的用户帐户。 打开Linux终端并键入以下命令以创建用户。 $ su password: # useradd hadoop # passwd hadoop New passwd: Retype new passwd SSH设置和密钥生成 需要SSH设置在集群上执行不同的操作,如启动,停止,分布式守护程序shell操作。要对Hadoop的不同用户进行身份验证,需要为Hadoop用户提供公钥/私钥对,并与不同的用户共享。 以下命令用于使用SSH生成键值对。将公共密钥表单id_rsa.pub复制到authorized_keys