hadoop集群搭建

hadoop + spark+ hive 集群搭建(apache版本)

拟墨画扇 提交于 2019-12-12 15:04:04
0. 引言 hadoop 集群,初学者顺利将它搭起来,肯定要经过很多的坑。经过一个星期的折腾,我总算将集群正常跑起来了,所以,想将集群搭建的过程整理记录,分享出来,让大家作一个参考。 由于搭建过程比较漫长,所以,这篇文章应该也会很长,希望大家能耐心看完。 1. 集群环境和版本说明 3台CentOS 7.4 的服务器,4CPU,8G内存; jdk 1.8 hadoop 2.7.7 spark 2.3.0 hive 2.1.1 节点和主机hostname对应关系: 主节点: 172.18.206.224 nn1 Namenode and YARN Resourcemanage 从节点1: 172.18.206.228 dn1 Datanode and YAR  Nodemanager 从节点2: 172.18.206.229 dn2 Datanode and YARN Nodemanager 为hadoop集群,创建一个non-root 用户,我使用的用户名是 hadoop。安装目录统一在hadoop用户的家目录 /data/hadoop 下。 2. hadoop 集群安装 2.1 安装 jdk 1.8版本 由于 hadoop 集群需要java 环境的支持,所以,在安装集群之前,首先确认你的系统是否已经安装了jdk,检查如下: [root@ND-ES-3 ~]# java

docker搭建hadoop分布式系统

心已入冬 提交于 2019-12-12 13:40:46
本来我一直想搭建一个hadoop分布式平台,没有高性能机器,也没有那么多机器,搞很很久,都没有能搞定。但基于docker,5-10min轻易搞定。 感谢大神 KiwenLau 的分享,网址是 https://kiwenlau.com/2016/06/12/160612-hadoop-cluster-docker-update/ 一. 项目介绍 将 Hadoop 打包到 Docker 镜像中,就可以快速地在单个机器上搭建Hadoop集群,这样可以方便新手测试和学习。 如下图所示,Hadoop的master和slave分别运行在不同的Docker容器中,其中hadoop-master容器中运行NameNode和ResourceManager,hadoop-slave容器中运行DataNode和NodeManager。NameNode和DataNode是Hadoop分布式文件系统HDFS的组件,负责储存输入以及输出数据,而ResourceManager和NodeManager是Hadoop集群资源管理系统YARN的组件,负责CPU和内存资源的调度。 之前的版本使用serf/dnsmasq为Hadoop集群提供DNS服务,由于Docker网络功能更新,现在并不需要了。更新的版本中,使用以下命令为Hadoop集群创建单独的网络: sudo docker network create -

Hbase环境搭建最全指南

坚强是说给别人听的谎言 提交于 2019-12-12 10:19:12
HBase集群环境配置 一、集群规划 二、前置条件 三、集群搭建 3.1 下载并解压 3.2 配置环境变量 3.3 集群配置 3.4 HDFS客户端配置 3.5 安装包分发 四、启动集群 4.1 启动ZooKeeper集群 4.2 启动Hadoop集群 4.3 启动HBase集群 4.5 查看服务 一、集群规划 这里搭建一个 3 节点的 HBase 集群,其中三台主机上均为 Regin Server 。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 上部署备用的 Master 服务。Master 服务由 Zookeeper 集群进行协调管理,如果主 Master 不可用,则备用 Master 会成为新的主 Master 。 二、前置条件 HBase 的运行需要依赖 Hadoop 和 JDK( HBase 2.0+ 对应 JDK 1.8+ ) 。同时为了保证高可用,这里我们不采用 HBase 内置的 Zookeeper 服务,而采用外置的 Zookeeper 集群。相关搭建步骤可以参阅: Linux 环境下 JDK 安装 Zookeeper 单机环境和集群环境搭建 Hadoop 集群环境搭建 三、集群搭建 3.1 下载并解压 下载并解压,这里我下载的是 CDH 版本 HBase,下载地址为:http://archive

大数据入门学习之环境搭建:VM、CentOS7安装,jdk1.8安装,Hadoop2.0安装及网络配置

限于喜欢 提交于 2019-12-12 08:28:57
一:环境搭建:VM、CentOS7安装及网络配置 大数据入门首先需要搭建环境,接下来的三篇文章均是环境搭建部分的内容。 首先我们要安装虚拟机及linux系统 一、安装虚拟机VM 官网下载VM虚拟机:这里下载的VMware-workstation-full-10.0.4,好像往后的高版本需要win系统为64位,根据自己的需求下载安装。 二、安装CentOS7 1、 官网下载:我下载的是CentOS-7-x86_64-DVD-1804.iso文件。 2、 安装过程(略):自行百度安装,按照步骤安装无问题,可根据需要选择最小化安装,安装至最后一步骤时最好创建一个用户。 3、 复制出另外两台虚拟机,并对每台虚拟机命名为master、slave1、slave2。 三、网络配置 1、 配置网络为NAT模式,三台均需要配置; 2、 修改网卡配置,三台均需要修改 cd /etc/sysconfig/network-scripts vim ifcfg-ens33 添加内容:IPADDR=192.168.198.21 //ip地址 添加内容:NETMASK=255.255.255.0 添加内容:GATEWAY=192.168.198.2 //网关 添加内容:DNS1=8.8.8.8 3、 配置完成后重启网络服务 /etc/init.d/network restart 或 service network

hadoop 集群搭建-suse linux 11

…衆ロ難τιáo~ 提交于 2019-12-11 17:58:51
好久都没写了啊。感觉自己都不像是一个搞技术都了。 来个存货吧! hadoop 集群搭建 3台机器 suse 系统 规划 IP 主机名 hostname hadoop角色 10.96.91.93 namenode93 NameNode、SecondaryNameNode 、ResourceManage、 DataNode 、NodeManager 10.96.91.129 datanode129 DataNode NodeManager 10.96.91.130 datanode130 DataNode NodeManager 创建 hadoop 用户 useradd -u 501 -g users -d /home/hadoop -s /bin/bash hadoop mkdir /home/hadoop chown -R hadoop:users /home/hadoop passwd hadoop 密码设置 方便记忆,我设置到用户名和密码一样 修改主机名 文件位置 /etc/HOSTNAME vim /etc/HOSTNAME文件 /etc/rc.d/boot.localnet start 修改host文件 !三台机器都要修改! 文件位置 /etc/hosts 10.96.91.93 namenode93 10.96.91.129 datanode129 10.96.91

搭建高可用集群 Hadoop-HA && Yarn环境 节点解析

感情迁移 提交于 2019-12-11 09:58:38
搭建高可用集群 搭建Zookeeper 准备三台相互免秘钥的虚拟机 上传zookeeper 解压 移动 解压zookeeper的tar包 - - 语法: tar - zxf zookeeper - 3 . 4 . 6 . tar . gz 移动zookper目录 - - 语法: mv zookeeper - 3 . 4 . 6 / opt / sxt / 修改配置文件zoo.cfg 进入zookeeper配置文件目录 - - 语法示例: cd / opt / sxt / zookeeper - 3 . 4 . 6 / conf / 修改配置文件文件名 - - 语法示例: cp zoo_sample . cfg zoo . cfg 编辑配置文件 - - 语法示例: vim zoo . cfg #修改zookeeper数据存放的目录 . #设置服务器内部通信的地址和zk集群的节点 … 创建myid 即是在生成配置文件目录conf中创建3个myid (内容分别是 1 2 3) - - 语法示例: mkdir - p / var / sxt / zookeeper touch / var / sxt / zookeeper / myid echo 1 > / var / sxt / zookeeper / myid echo 2 > / var / sxt / zookeeper /

Windows10安装搭建hadoop伪分布式-总结(亲测可行)

不问归期 提交于 2019-12-08 23:21:56
写在前面: 本人最近因课程作业需要安装hadoop。hadoop有三种安装模式,即单机模式,伪分布式,分布式。伪分布式是在一台电脑上模拟多台电脑进行分布式MapReduce操作,符合课程要求,相对难度低,因此为之。 下面是一些高质量的blog,一步步照着来。然而,本人还是遇到了一些坑,因此做详细补充说明,刚刚搭建成功了,亲测可行。 1.Windows安装搭建hadoop伪分布式--具体流程: windows环境搭建hadoop伪集群 - 简书 https://www.jianshu.com/p/1e7e9a70262d 2.这里附上一些可能会用上的链接: 如何配置Java环境变量-百度经验 https://jingyan.baidu.com/article/fd8044fa2c22f15031137a2a.html 如何查看jdk版本-百度经验 https://jingyan.baidu.com/article/ab69b270b8ae352ca7189f20.html 3.配置java环境变量(有几处坑,当心) 3.1 配置java环境变量时,最好在“环境变量”中添加“JAVA_HOME”这个变量名(当然,附上你的jdk文件目录);然后在“PATH”中,把“JAVA_HOME”添加上去,并加上bin,也就是写成这样,“%HADOOP_HOME%\bin”。

windows10系统通过docker搭建hadoop大数据集群(包括hive,zookeeperkafka,spark)

南楼画角 提交于 2019-12-08 23:21:39
1、百度云下载自己搭建的hadoop_spark_master.tar和hadoop_spark_slaver.tar,分别为hadoop的master镜像和slaver镜像。 2、docker加载镜像: docker load -i C:\Users\hasee\Desktop\hadoop_spark_master.tar docker load -i C:\Users\hasee\Desktop\hadoop_spark_slaver.tar 3、给镜像重打个标签 docker tag 99e7e1c1bb85 hadoop_spark_slaver:1.0 docker tag ab6805768617 hadoop_spark_master:1.0 4、启动master节点 docker run --privileged -dti -m 3G --memory-swap 4G --name hadoop1 --hostname hadoop1 --add-host hadoop1:172.17.0.2 --add-host hadoop2:172.17.0.3 --add-host hadoop3:172.17.0.4 -p 221:22 -p 50070:50070 -p 8088:8088 -p 8080:8080 -p 28081:8081 -p 18080

hadoop学习1-Hadoop基础概念

孤者浪人 提交于 2019-12-08 19:02:45
大数据云计算出来也比较久了,目前也比较的火,最近打算学习下相关的知识。进行学习首先得选择一本书,这里我选择 Hadoop+Spark生态系统操作与实战指南,因为书比较薄,适合入门。作者也提供了相关的视频和配置文件,环境。 hadoop权威指南,书是不错,不过太厚,目前入门不想使用此书,此书打算放在后面再进行看。学习东西,比较喜欢由点到面,步步深入。我的博客也是自己学习总结的过程,同时希望也能帮助到一些人。想买书籍看的,可以点击链接 http://product.dangdang.com/25163568.html 。 要学hadoop首先我们需要了解一些相关的概念,知道hadoop是什么,可以干什么,然后我们才能深入的学习。 一:hadoop版本和生态系统 1,hadoop版本的优缺点 目前市面上hadoop主要有两种:apache版本和CDH版本 1)apache版本的hadoop 官网:http://hadoop.apache.org/ 优势:对硬件要求低 劣势:搭建繁琐,维护繁琐,升级繁琐,添加组件繁琐 2)CDH版本的hadoop 官网:https://www.cloudera.com/ 优势:搭建方便,维护较为容易,升级以及迁移容易,添加组件容易 缺点:对硬件要求高 2,Hadoop生态系统和组件介绍 Hadoop生态组件主要包括:MapReduce,HDFS,HBase

使用Docker搭建hadoop集群

孤街醉人 提交于 2019-12-07 15:01:49
刚开始搭建hadoop集群的时候,使用的是VMware创建的虚拟机。结果卡到心态爆炸。。。 今天尝试使用Docker搭建hadoop集群,发现是如此的好用快捷,也比使用VMware简单。 在这里记录一下防止以后忘记,为以后的学习做准备。 1.获取镜像。 如果是本地使用VMware搭建的话,需要准备java环境,hadoop安装包,还要配置环境变量。虽然不难,但是经常做这些工作也难免烦躁。 使用Docker容器的话,那这一切就变得简单多了。 首先要准备一个镜像,可以使用Dockerfile构建一个合适自己的镜像,或者可以在共有仓库中找一个具有hadoop环境的镜像来使用也可以。由于我是配置的阿里云的加速器,所以在阿里云的仓库中找了一个具有hadoop环境的镜像。 hadoop镜像地址 使用命令拉到本地: docker pull registry .cn -hangzhou .aliyuncs .com /kaibb/hadoop 下载完成之后,通过docker images 可以查看到该镜像: 2.创建容器。 有了镜像之后,我们根据该镜像创建三个容器,分别是一个Master用来作为hadoop集群的namenode,剩下两个Slave用来作为datanode。 可以使用命令: docker run -i -t -- name Master -h Master registry .