hadoop集群搭建 | 易学教程

搭建3节点hadoop集群

阅读更多关于搭建3节点hadoop集群

前言我们使用hadoop2.6.0版本配置Hadoop集群，同时配置NameNode+HA、ResourceManager+HA，并使用zookeeper来管理Hadoop集群。 (一)HDFS概述基础架构 1、NameNode（Master） 1)命名空间管理：命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 2)块存储管理。 HA架构从上面的架构图可以看出，使用Active NameNode，Standby NameNode 两个节点可以解决单点问题，两个节点通过JounalNode共享状态，通过ZKFC 选举Active ，监控状态，自动备份。 1、Active NameNode 接受client的RPC请求并处理，同时写自己的Editlog和共享存储上的Editlog，接收DataNode的Block report, block location updates和heartbeat。 2、Standby NameNode 同样会接到来自DataNode的Block report, block location updates和heartbeat，同时会从共享存储的Editlog上读取并执行这些log操作，保持自己NameNode中的元数据（Namespcae information + Block locations

Hadoop 2.2 YARN分布式集群搭建配置流程

阅读更多关于 Hadoop 2.2 YARN分布式集群搭建配置流程

搭建环境准备：JDK1.6，SSH免密码通信系统：CentOS 6.3 集群配置：NameNode和ResourceManager在一台服务器上，三个数据节点搭建用户：YARN Hadoop2.2下载地址： http://www.apache.org/dyn/closer.cgi/hadoop/common/ 步骤一：上传Hadoop 2.2 并解压到/export/yarn/hadoop-2.2.0 外层的启动脚本在sbin目录内层的被调用脚本在bin目录 Native的so文件都在lib/native目录配置程序文件都放置在libexec 配置文件都在etc目录，对应以前版本的conf目录所有的jar包都在share/hadoop目录下面步骤二：配置环境变量　　在~/.bashrc文件中添加以下配置： export JAVA_HOME=/export/servers/jdk1.6.0_25/ export HADOOP_DEV_HOME=/export/yarn/hadoop-2.2.0 export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME} export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME} export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}

Hadoop-hdfs分布式集群搭建

阅读更多关于 Hadoop-hdfs分布式集群搭建

第一步：准备n台linux服务器　　我这里使用的是3台CentOS6.5版本的linux虚拟机，1个namenode节点 + 2个datanode 节点。第二步：给3台虚拟机分配IP并修改hosts文件　　　主机名：hdp-01 对应的ip地址：192.168.33.61 　　主机名：hdp-02 对应的ip地址：192.168.33.62 　　主机名：hdp-03 对应的ip地址：192.168.33.63 　　1.修改主机名 (/etc/sysconfig/network) 　　　　　　　　　　2.修改IP(/etc/sysconfig/network-scripts/ifcfg-eth0) 　　　　　　　　　　3.修改hosts文件（/etc/hosts）　　　　　　　　　　　4.重启linux虚拟机　　　　　　按照以上5步完成3台虚拟机IP分配和hosts文件修改第三步配置linux服务器的基础软件环境　　 1.关闭防火墙以及防火墙自启（学习时会省去不少麻烦）　　　　　　 2.添加用户并设置密码　　　　　　 3.切换到新添用户test 　　　　　　4.安装JDK 　　　　上传JDK安装包到当前用户home目录下，并解压至/home/test/apps/目录下　　　　　　　　配置JDK环境变量　　　　　　　　　　　

hadoop集群搭建（hdfs）

阅读更多关于 hadoop集群搭建（hdfs）

　　（搭建hadoop集群的前提是服务器已成功安装jdk以及服务器之间已设置免密码登录，服务器之间的免密码登录可参考《 linux服务器间ssh免密码登录》） 1、下载hadoop安装包　　wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.0.0/hadoop-3.0.0-src.tar.gz 2、解压安装包　　tar zxvf hadoop-3.0.0-src.tar.gz 3、配置hadoop的环境变量　　 vi /etc/profile（三台机器）　　增加以下配置　　 #Hadoop 3.0 export HADOOP_PREFIX=/home/hadoop/hadoop-3.0.0 export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin export HADOOP_COMMON_HOME=$HADOOP_PREFIX export HADOOP_HDFS_HOME=$HADOOP_PREFIX export HADOOP_MAPRED_HOME=$HADOOP_PREFIX export HADOOP_YARN_HOME=$HADOOP_PREFIX export HADOOP_INSTALL=$HADOOP_PREFIX

Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

阅读更多关于 Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

自己搭建了一套伪分布的大数据环境，运行Hadoop包中自带的示例时，出现如下错误：错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster 原因： hadoop集群上运行build动作时提示以上错误，原因是yarn-site.xml和mapred-site.xml中的yarn.application.classpath没有进行配置。解决方法：找到yarn-site.xml和mapred-site.xml，并在configuration标签中，添加如下代码： 1 <property> 2 <name>yarn.application.classpath</name> 3 <value> 4 　　/bigdata/hadoop-3.0.3/etc/hadoop:/bigdata/hadoop-3.0.3/share/hadoop/common/lib/*:/bigdata/hadoop-3.0.3/share/hadoop/common/*:/bigdata/hadoop-3.0.3/share/hadoop/hdfs:/bigdata/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/bigdata/hadoop-3.0.3/share/hadoop/hdfs/*:/bigdata

Hadoop HA架构搭建

阅读更多关于 Hadoop HA架构搭建

Hadoop HA架构搭建共七台服务器，节点角色分配如下： 192.168.133.21 （BFLN-01）：namenode zookeeper journalnade DFSZKFailoverController 192.168.133.23 （BFLN-02）：namenode resourcemanager zookeeper journalnade DFSZKFailoverController 192.168.133.24 （BFLN-03）：resourcemanager zookeeper journalnade DFSZKFailoverController 192.168.133.25 （BFLN-04）：datanode，nodemanager 192.168.133.26 （BFLN-05）：datanode，nodemanager 192.168.133.27 （BFLN-06）：datanode，nodemanager 192.168.133.28 （BFLN-07）：datanode，nodemanager HA优势：双namedata和resourcemanager能防止hadoop核心组件单点故障导致集群不可用情况的发生。配置步骤：环境配置 1、集群间需实现时间同步： ntpdate 2、配置7台服务器的主机名解析/etc/hosts

hadoop集群添加新节点

阅读更多关于 hadoop集群添加新节点

hadoop集群支持动态扩展，不需要停止原有集群节点就可以实现新节点的加入。我是使用docker搭建的进群环境，制作了镜像文件，这里以我的工作基础为例子介绍集群中添加集群的方法一、制作一个新节点 1、为新节点搭建hadoop环境如果是一般情况下，将一个新物理机添加到集群中，参照集群中其他节点，在新机器上安装与集群中其他节点相同版本的jdk、hadoop等必要程序，安装路径最好一致，这样比较容易管理。这里我使用docker搭建的环境，所以只需要启动一个容器即可。 2、修改新节点主机名映射 vi /etc/hosts 在其中添加集群中各个节点的节点名与ip的映射关系 3、关闭新节点防火墙 service iptables stop 4、配置免密登陆，使得master可以免密登陆到新节点二、修改集群中全部节点配置文件 1、为集群中全部节点配置slaves 修改 ${HADOOP_HOME}/etc/slaves 文件，进入hadoop安装目录，在文件中添加新节点主机名 vi etc/hadoop/slaves 添加内容： hadoop3 2、复制集群中slave节点的配置文件到新节点的配置文件中，使用scp即可 scp -r /hadoop安装目录/etc hadoop3:/hadoop安装目录（如/usr/local/hadoop/）三、单独启动新节点

基于ambari搭建hadoop生态圈大数据组件

阅读更多关于基于ambari搭建hadoop生态圈大数据组件

Ambari 介绍1 Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。建议需对hadoop生态圈的各个组件以及环境配置，参数有一定的知识，才建议使用ambari搭建对比（CDH） 1、Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于，Hortonworks的产品均是百分之百开源。 2、Cloudera有免费版和企业版，企业版只有试用期。 3、apache hadoop则是原生的hadoop。 4、目前在中国流行的是apache hadoop，Cloudera CDH，当然Hortonworks也有用的5、Apache Ambari是一个基于web的工具，用于配置、管理和监视Apache Hadoop集群，支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper

hadoop伪分布式安装

阅读更多关于 hadoop伪分布式安装

hadoop伪分布式安装笔记参考 https://www.cnblogs.com/zhangyinhua/p/7647686.html https://blog.csdn.net/javastart/article/details/47187733 一、Hadoop的三种运行模式（启动模式） 1.1、单机模式（独立模式）（Local或Standalone Mode）　　-默认情况下，Hadoop即处于该模式，用于开发和调式。　　-不对配置文件进行修改。　　-使用本地文件系统，而不是分布式文件系统。　　-Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。　　-用于对MapReduce程序的逻辑进行调试，确保程序的正确。 1.2、伪分布式模式（Pseudo-Distrubuted Mode）　　-Hadoop的守护进程运行在本机机器，模拟一个小规模的集群　　　-在一台主机模拟多主机。　　-Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行，是相互独立的Java进程。　　-在这种模式下，Hadoop使用的是分布式文件系统，各个作业也是由JobTraker服务

PHP与大数据开发实践

阅读更多关于 PHP与大数据开发实践

大数据是使用工具和技术处理大量和复杂数据集合的术语。能够处理大量数据的技术称为MapReduce。何时使用MapReduce MapReduce特别适合涉及大量数据的问题。它通过将工作分成更小的块，然后可以被多个系统处理。由于MapReduce将一个问题分片并行工作，与传统系统相比，解决方案会更快。大概有如下场景会应用到MapReduce： 1 计数和统计 2 整理 3 过滤 4 排序 Apache Hadoop 在本文中，我们将使用Apache Hadoop。开发MapReduce解决方案，推荐使用Hadoop，它已经是事实上的标准，同时也是开源免费的软件。另外在Amazon，Google和Microsoft等云提供商租用或搭建Hadoop集群。还有其他多个优点：可扩展：可以轻松清加新的处理节点，而无需更改一行代码成本效益：不需要任何专门和奇特的硬件，因为软件在正常的硬件都运行正常灵活：无模式。可以处理任何数据结构，甚至可以组合多个数据源，而不会有很多问题。容错：如果有节点出现问题，其它节点可以接收它的工作，整个集群继续处理。另外，Hadoop容器还是支持一种称为“流”的应用程序，它为用户提供了选择用于开发映射器和还原器脚本语言的自由度。本文中我们将使用PHP做为主开发语言。 Hadoop安装 Apache Hadoop的安装配置超出了本文范围

订阅 hadoop集群搭建