hadoop集群搭建

[搭建中][hadoop]Mac hadoop 集群搭建

断了今生、忘了曾经 提交于 2019-12-04 05:42:09
1. 安装虚拟机, 安装centos, 配置用户, 配置sudo 2. 在一台虚拟机里安装hadoop + spark 3. 复制虚拟机 > 我这里复制了3台, 集群里一共有4台机器 4. 修改主机名和IP, 配置host, 配置免密登录, 关闭防火墙 > 修改主机名 vi /etc/hostname # 我这里依次写入了 hadoop00, hadoop01, hadoop02, hadoo03 > 修改IP sudo vi /etc/sysconfig/network-scripts/ifcfg-eth0 # 以下是写入的内容 DEVICE="eth0" IPV6INIT="yes" BOOTPROTO="static" ONBOOT="yes" TYPE="Ethernet" NETMASK="255.255.255.0" GATEWAY="10.211.55.1" IPADDR="10.211.55.3" # 每台机器配一个IP, 分别是# 10.211.55.3 # 10.211.55.4 # 10.211.55.5 # 10.211.55.6 参考 https://blog.csdn.net/qq285016127/article/details/80501418 来源: https://www.cnblogs.com/fadedlemon/p/11833687

Docker搭建Hadoop环境

∥☆過路亽.° 提交于 2019-12-04 03:44:10
文章目录 Docker搭建Hadoop环境 Docker的安装与使用 拉取镜像 克隆配置脚本 创建网桥 执行脚本 Docker命令补充 更换镜像源 安装vim 启动Hadoop 测试Word Count 查看Web管理页面 Docker搭建Hadoop环境 Hadoop集群环境配置起来相当繁琐,并且在学习Hadoop过程中没有一般不会去使用多台设备进行分布式集群配置。因此在一台机器上配置Hadoop分布式集群时通常采用虚拟机来模拟多台设备,但虚拟机较为占用系统资源,开多个虚拟机(模拟Hadoop集群通常使用3个,一个master,两个slave)对内存要求比较高,因此笔者就想是否能通过Docker来配置Hadoop,并且通过Jetbrains IDEA来连接Docker容器调试MapReduce程序。经过一番折腾,成功地搭建了Docker+IDEA的Hadoop环境。在此将结合网上其他一些教程和自己的经验讲配置过程记录下来。 注意:文中多次提到容器终端是hadoop-master这个容器的终端 Docker的安装与使用 建议在Ubuntu上配置以下内容,因为我自己在Windows上多次尝试配置,都出现Datanode启动不了的情况,同样的步骤在Ubuntu上就没有问题。 看了一些Docker教程,笔者认为菜鸟教程里的Docker教程不错,包含安装过程和一些基础命令,在这里就不赘述了

Hadoop的安装与配置

我的未来我决定 提交于 2019-12-03 20:44:56
前言:现在开始安装Hadoop啦。 注意,每一个节点的安装和配置是相同的。实际工作中,通常在master 节点上完成安装和配置后,然后将安装目录复制到其他节点即可。 这里所有操作都是root用户权限 1.下载Hadoop安装 登录进入 http://hadoop.apache.org/ hadoop官网下载自己的Hadoop版本 (这里我们下载的是:hadoop-2.7.5.tar.gz) 2.解压安装包 找到 hadoop-2.7.5.tar.gz 将其上传到 master 节点的“ /opt/hadoop ”目录内,用xshell的xftp工具上传文件。 上传完后,在master主机进入/opt/hadoop目录,执行解压缩命令“ tar -zxvf hadoop-2.7.5.tar.gz ”,即可实现安装,回车后系统开始解压缩 tar -zxvf hadoop-2.7.5.tar.gz 文件, 屏幕上会不断显示解压过程信息,执行成功后,系统将在 Hadoop 下自动创建tar -zxvf hadoop-2.7.5 子目录,将" hadoop-2.7.5 ”文件夹名称修改为“ hadoop ”此即Hadoop安装目录。 我们进入Hadoop安装目录,查看一下安装文件,如果显示如图所示的文件列表,说明解压缩成功。 2.配置env文件 修改“ /opt/hadoop/hadoop

Hadoop(一)之初识大数据与Hadoop

旧巷老猫 提交于 2019-12-03 14:31:40
前言   从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢?   学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一、引言(大数据时代) 1.1、从数据中得到信息   我们看一张图片:        我们知道这个图片上的人叫张小妹,年龄20岁,职业模特。但是如果只有数据没有图片的话,就没有意义的数据了。所以数据一定是在特定的环境下才有意义的。   我们再来看一张图片:        从这张图片分析出:从纵向分析,范范和张帆的购买东西十分的相似,所以如果要推荐东西给张帆的话,我们就可以选择小米手环。           从横向分析,无效鼠标,linux编程思想,皮鞋和小米手环都卖的比较火,其他几样销量少,所以我们推荐就可以把这几样放上去。 1.2、大数据表象概念   大家理解什么是大数据吗,那大数据到底有多大!我们就以百度的数据来分析一下:        首先:1PB=1024T   分析:我们就看最小的它每天产生的日志就可以看出来,百度每天要产生100TB~1PB的日志数据。一般我们电脑的硬盘是1T的。那就需要电脑的100个硬盘到1024块硬盘,你想想是多么的恐怖! 回到顶部(go to top) 二、大数据基础 2.1、什么是大数据?  

Hadoop(五)搭建Hadoop客户端与Java访问HDFS集群

喜欢而已 提交于 2019-12-03 14:29:19
  上一篇详细介绍了HDFS集群,还有操作HDFS集群的一些命令,常用的命令: hdfs dfs -ls xxx hdfs dfs -mkdir -p /xxx/xxx hdfs dfs -cat xxx hdfs dfs -put local cluster hdfs dfs -get cluster local hdfs dfs -cp /xxx/xxx /xxx/xxx hdfs dfs -chmod -R 777 /xxx hdfs dfs -chown -R zyh:zyh /xxx   注意:这里要说明一下-cp,我们可以从本地文件拷贝到集群,集群拷贝到本地,集群拷贝到集群。 一、Hadoop客户端配置   其实在前面配置的每一个集群节点都可以做一个Hadoop客户端。但是我们一般都不会拿用来做集群的服务器来做客户端,需要单独的配置一个客户端。 1)安装JDK 2)安装Hadoop 3)客户端配置子core-site.xml    4)客户端配置之mapred-site.xml    5)客户端配置之yarn-site.xml    以上就搭建了一个Hadoop的客户端 二、Java访问HDFS集群 2.1、HDFS的Java访问接口    1)org.apache.hadoop.fs.FileSystem     是一个通用的文件系统API

Hadoop(二)搭建伪分布式集群

烂漫一生 提交于 2019-12-03 14:27:32
Hadoop(二)搭建伪分布式集群 前言   前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。   -用于对MapReduce程序的逻辑进行调试,确保程序的正确。 1.2、伪分布式模式(Pseudo-Distrubuted Mode)   -Hadoop的守护进程运行在本机机器,模拟一个小规模的集群    -在一台主机模拟多主机。   -Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。   -在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTraker服务,来管理的独立进程。在单机模式之上增加了代码调试功能

Hadoop2.X的认识

浪子不回头ぞ 提交于 2019-12-03 13:09:26
Hadoop 2x 一.Hadoop1.x的弊端 1.namenode只有一个-->容易发生单点故障:当前直接出现问题,整个集群没办法工作 2.namenode没办法扩充 NameNode会随着业务量的增大,内存中的数据会越来越大 会导致一直要增加内存来满足集群的需要 一旦业务量大大的超过内存那么业务就无法被处理 3.NameNode内存太大 如果内存大小达到上百G,开机时间过长 4.不能实现业务隔离 二.Hadoop2.x的解决方案 1.集群高可用 添加主备namenode节点 当主节点发生故障时,直接切换成备用namenode节点 2.集群可扩展性 联邦机制(hdfs federation) 进行分而治之 2.x的变化对用户来讲都是透明的,对用的操作影响很小 三.Hadoop2.x之HA 1.HA的节点 ActiveNameNode(ANN) 活跃的节点 作用:管理元数据信息(路径 文件 权限 等...);启动时接受DN汇报的BLK信息;维护文件与块的映射,维护块与DN的映射;与DN保持心跳,监控DN的存活(3秒, 10 分钟);当客户端写入读取文件的时候都与ANN通信. 主活动节点类似于以前的皇帝 StandbyNameNode(SNN) 备用的NamdeNode 删除了SecondaryNameNode,其功能完全有StandbyNameNode代替

hadoop-2.4.0完全分布式集群搭建

痴心易碎 提交于 2019-12-03 11:30:34
1.配置hosts 各linux版本hosts文件位置可能不同,redhat是在 /etc/hosts,编辑之: 172.17.0.1 master 172.17.0.2 resorucemanager 172.17.0.3 datanode1 172.17.0.4 datanode2 172.17.0.5 datanode3 然后copy到其余四台服务器,然后分别执行 /bin/hostsname hostsname 例如:master上执行 /bin/hostsname master,使之生效。 2.配置ssh 2.1 创建hadoop用户 注意:hadoop有两种运行模式,安全模式和非安全模式。安装模式是以指定在健壮的,基于身份验证上运行的,如果无需运行在非安全模式下,可以直接使用root用户。 安全模式下要确保hdfs和yarn以不同的用户身份运行,如hdfs和yarn,还有确保mapreduce jobhistory server以user mapred运行。推荐这三个身份使用一个组名为hadoop。 这里为了方便直接使用root。 2.2 配置master无密码ssh各服务器 在master执行操作: ssh-keygen -t rsa 然后一直回车,最后 在/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub cat id_rsa.pub

基于hadoop2.6.5搭建5个节点的分布式集群―(八)HBase安装

匿名 (未验证) 提交于 2019-12-03 00:30:01
2.配置环境变量 vi /etc/profile 生效环境变量:source /etc/profile, 其它节点按照此方法配置环境变量,并使配置生效。 3. 配置hbase-env.sh 4.配置conf/hbase-site.xml 5.配置conf/regionservers 6.配置 Hbase master 的备份节点 7.需要将hdfs的core-site.xml和hdfs-site.xml两个配置文件copy到hbase的conf目录下,否则regionserver不能识别cluster逻辑名称。 8.Hbase 安装包远程同步到其它节点 9.启动Hbase集群 需按照以下顺序来启动Hbase集群 1)启动Zookeeper [hadoop@hadoop001 app]$ runRemoteCmd.sh "/usr/hadoop/app/zookeeper/bin/zkServer.sh start" all 2)启动HDFS [hadoop@hadoop001 hadoop]$ sbin/start-dfs.sh 3)启动yarn [hadoop@hadoop001 hadoop]$ sbin/start-yarn.sh 4)启动Hbase [hadoop@hadoop001 hbase]$ bin/start-hbase.sh 10. 查看所有节点进程 11

CentOs7 安装Hadoop-3.1.0集群搭建

匿名 (未验证) 提交于 2019-12-03 00:29:01
虚拟机准备 master 172.16.20.11 slave1 172.16.20.12 slave2 172.16.20.13 安装JDK version 1.8.0_121,注意需要配置环境变量。 安装:参考 https://blog.csdn.net/boonya/article/details/55506386 SSH免密登录 1、修改hostname [root@localhost local]# hostname master [root@localhost local]# hostname master [root@localhost local]# [root@localhost local]# hostname slave1 [root@localhost local]# hostname slave1 [root@localhost local]# [root@localhost local]# hostname slave2 [root@localhost local]# hostname slave2 [root@localhost local]# 2、修改/etc/hosts文件 172.16.20.11 master 172.16.20.12 slave1 172.16.20.13 slave2 3、ping验证 [root@localhost