hadoop集群搭建

搭建3节点hadoop集群

余生长醉 提交于 2020-02-27 01:13:22
前言 我们使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA、ResourceManager+HA,并使用zookeeper来管理Hadoop集群。 (一)HDFS概述 基础架构 1、NameNode(Master) 1)命名空间管理:命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 2)块存储管理。 HA架构 从上面的架构图可以看出,使用Active NameNode,Standby NameNode 两个节点可以解决单点问题,两个节点通过JounalNode共享状态,通过ZKFC 选举Active ,监控状态,自动备份。 1、Active NameNode 接受client的RPC请求并处理,同时写自己的Editlog和共享存储上的Editlog,接收DataNode的Block report, block location updates和heartbeat。 2、Standby NameNode 同样会接到来自DataNode的Block report, block location updates和heartbeat,同时会从共享存储的Editlog上读取并执行这些log操作,保持自己NameNode中的元数据(Namespcae information + Block locations

Hadoop 2.2 YARN分布式集群搭建配置流程

人盡茶涼 提交于 2020-02-27 01:09:19
搭建环境准备:JDK1.6,SSH免密码通信 系统:CentOS 6.3 集群配置:NameNode和ResourceManager在一台服务器上,三个数据节点 搭建用户:YARN Hadoop2.2下载地址: http://www.apache.org/dyn/closer.cgi/hadoop/common/ 步骤一:上传Hadoop 2.2 并解压到/export/yarn/hadoop-2.2.0 外层的启动脚本在sbin目录 内层的被调用脚本在bin目录 Native的so文件都在lib/native目录 配置程序文件都放置在libexec 配置文件都在etc目录,对应以前版本的conf目录 所有的jar包都在share/hadoop目录下面 步骤二:配置环境变量    在~/.bashrc文件中添加以下配置: export JAVA_HOME=/export/servers/jdk1.6.0_25/ export HADOOP_DEV_HOME=/export/yarn/hadoop-2.2.0 export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME} export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME} export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}

Hadoop-hdfs分布式集群搭建

不打扰是莪最后的温柔 提交于 2020-02-25 10:39:06
第一步:准备n台linux服务器    我这里使用的是3台CentOS6.5版本的linux虚拟机,1个namenode节点 + 2个datanode 节点。 第二步:给3台虚拟机分配IP并修改hosts文件    主机名:hdp-01 对应的ip地址:192.168.33.61   主机名:hdp-02 对应的ip地址:192.168.33.62   主机名:hdp-03 对应的ip地址:192.168.33.63   1.修改主机名 (/etc/sysconfig/network)             2.修改IP(/etc/sysconfig/network-scripts/ifcfg-eth0)             3.修改hosts文件(/etc/hosts)               4.重启linux虚拟机        按照以上5步完成3台虚拟机IP分配和hosts文件修改 第三步 配置linux服务器的基础软件环境    1.关闭防火墙以及防火墙自启(学习时会省去不少麻烦)         2.添加用户并设置密码         3.切换到新添用户test        4.安装JDK     上传JDK安装包到当前用户home目录下,并解压至/home/test/apps/目录下          配置JDK环境变量              

hadoop集群搭建(hdfs)

核能气质少年 提交于 2020-02-24 20:08:18
   (搭建hadoop集群的前提是服务器已成功安装jdk以及服务器之间已设置免密码登录,服务器之间的免密码登录可参考《 linux服务器间ssh免密码登录 》) 1、下载hadoop安装包   wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.0.0/hadoop-3.0.0-src.tar.gz 2、解压安装包   tar zxvf hadoop-3.0.0-src.tar.gz 3、配置hadoop的环境变量    vi /etc/profile(三台机器)   增加以下配置    #Hadoop 3.0 export HADOOP_PREFIX=/home/hadoop/hadoop-3.0.0 export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin export HADOOP_COMMON_HOME=$HADOOP_PREFIX export HADOOP_HDFS_HOME=$HADOOP_PREFIX export HADOOP_MAPRED_HOME=$HADOOP_PREFIX export HADOOP_YARN_HOME=$HADOOP_PREFIX export HADOOP_INSTALL=$HADOOP_PREFIX

Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

房东的猫 提交于 2020-02-24 16:50:58
自己搭建了一套伪分布的大数据环境,运行Hadoop包中自带的示例时,出现如下错误: 错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster 原因: hadoop集群上运行build动作时提示以上错误,原因是yarn-site.xml和mapred-site.xml中的yarn.application.classpath没有进行配置。 解决方法: 找到yarn-site.xml和mapred-site.xml,并在configuration标签中,添加如下代码: 1 <property> 2 <name>yarn.application.classpath</name> 3 <value> 4   /bigdata/hadoop-3.0.3/etc/hadoop:/bigdata/hadoop-3.0.3/share/hadoop/common/lib/*:/bigdata/hadoop-3.0.3/share/hadoop/common/*:/bigdata/hadoop-3.0.3/share/hadoop/hdfs:/bigdata/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/bigdata/hadoop-3.0.3/share/hadoop/hdfs/*:/bigdata

Hadoop HA架构搭建

醉酒当歌 提交于 2020-02-23 19:04:06
Hadoop HA架构搭建 共七台服务器,节点角色分配如下: 192.168.133.21 (BFLN-01):namenode zookeeper journalnade DFSZKFailoverController 192.168.133.23 (BFLN-02):namenode resourcemanager zookeeper journalnade DFSZKFailoverController 192.168.133.24 (BFLN-03):resourcemanager zookeeper journalnade DFSZKFailoverController 192.168.133.25 (BFLN-04):datanode,nodemanager 192.168.133.26 (BFLN-05):datanode,nodemanager 192.168.133.27 (BFLN-06):datanode,nodemanager 192.168.133.28 (BFLN-07):datanode,nodemanager HA优势:双namedata和resourcemanager能防止hadoop核心组件单点故障导致集群不可用情况的发生。 配置步骤: 环境配置 1、集群间需实现时间同步: ntpdate 2、配置7台服务器的主机名解析/etc/hosts

hadoop集群添加新节点

倾然丶 夕夏残阳落幕 提交于 2020-02-22 08:27:48
hadoop集群支持动态扩展,不需要停止原有集群节点就可以实现新节点的加入。 我是使用docker搭建的进群环境,制作了镜像文件,这里以我的工作基础为例子介绍集群中添加集群的方法 一、制作一个新节点 1、为新节点搭建hadoop环境 如果是一般情况下,将一个新物理机添加到集群中,参照集群中其他节点,在新机器上安装与集群中其他节点相同版本的jdk、hadoop等必要程序,安装路径最好一致,这样比较容易管理。这里我使用docker搭建的环境,所以只需要启动一个容器即可。 2、修改新节点主机名映射 vi /etc/hosts 在其中添加集群中各个节点的节点名与ip的映射关系 3、关闭新节点防火墙 service iptables stop 4、配置免密登陆,使得master可以免密登陆到新节点 二、修改集群中全部节点配置文件 1、为集群中全部节点配置slaves 修改 ${HADOOP_HOME}/etc/slaves 文件,进入hadoop安装目录,在文件中添加新节点主机名 vi etc/hadoop/slaves 添加内容: hadoop3 2、复制集群中slave节点的配置文件到新节点的配置文件中,使用scp即可 scp -r /hadoop安装目录/etc hadoop3:/hadoop安装目录(如/usr/local/hadoop/) 三、单独启动新节点

基于ambari搭建hadoop生态圈大数据组件

醉酒当歌 提交于 2020-02-19 09:44:58
Ambari 介绍1 Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。 建议 需对hadoop生态圈的各个组件以及环境配置,参数有一定的知识,才建议使用ambari搭建 对比(CDH) 1、Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于,Hortonworks的产品均是百分之百开源。 2、Cloudera有免费版和企业版,企业版只有试用期。 3、apache hadoop则是原生的hadoop。 4、目前在中国流行的是apache hadoop,Cloudera CDH,当然Hortonworks也有用的5、Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper

hadoop伪分布式安装

两盒软妹~` 提交于 2020-02-18 08:20:54
hadoop伪分布式安装笔记 参考 https://www.cnblogs.com/zhangyinhua/p/7647686.html https://blog.csdn.net/javastart/article/details/47187733 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。   -用于对MapReduce程序的逻辑进行调试,确保程序的正确。 1.2、伪分布式模式(Pseudo-Distrubuted Mode)   -Hadoop的守护进程运行在本机机器,模拟一个小规模的集群    -在一台主机模拟多主机。   -Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。   -在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTraker服务

PHP与大数据开发实践

你说的曾经没有我的故事 提交于 2020-02-15 22:45:20
大数据 是使用工具和技术处理大量和复杂数据集合的术语。能够处理 大量数据的技术 称为MapReduce。 何时使用MapReduce MapReduce特别适合涉及大量数据的问题。它通过将工作分成更小的块,然后可以被多个系统处理。由于MapReduce将一个问题分片并行工作,与传统系统相比,解决方案会更快。 大概有如下场景会应用到MapReduce: 1 计数和统计 2 整理 3 过滤 4 排序 Apache Hadoop 在本文中,我们将使用Apache Hadoop。 开发MapReduce解决方案,推荐使用Hadoop,它已经是事实上的标准,同时也是开源免费的软件。 另外在Amazon,Google和Microsoft等云提供商租用或搭建Hadoop集群。 还有其他多个优点: 可扩展:可以轻松清加新的处理节点,而无需更改一行代码 成本效益:不需要任何专门和奇特的硬件,因为软件在正常的硬件都运行正常 灵活:无模式。可以处理任何数据结构 ,甚至可以组合多个数据源,而不会有很多问题。 容错:如果有节点出现问题,其它节点可以接收它的工作,整个集群继续处理。 另外,Hadoop容器还是支持一种称为“流”的应用程序,它为用户提供了选择用于开发映射器和还原器脚本语言的自由度。 本文中我们将使用PHP做为主开发语言。 Hadoop安装 Apache Hadoop的安装配置超出了本文范围