hadoop集群搭建

基于docker搭建hadoop集群(一)

試著忘記壹切 提交于 2019-12-26 18:37:33
期末老师让做课设,最后选择了这个课题 第一步 1.在centos上安装docker 1 . 1 $ sudo yum remove docker \ docker - client \ docker - client - latest \ docker - common \ docker - latest \ docker - latest - logrotate \ docker - logrotate \ docker - engine 1 . 2 $ sudo yum install - y yum - utils \ device - mapper - persistent - data \ lvm2 1 . 3 $ sudo yum - config - manager \ -- add - repo \ https: / / download . docker . com / linux / centos / docker - ce . repo 1 . 4 $ sudo yum install docker - ce docker - ce - cli containerd . io 1 . 5 $ yum list docker - ce -- showduplicates | sort - r 1 . 6 $ sudo yum install docker -

Docker中Hadoop集群搭建

☆樱花仙子☆ 提交于 2019-12-26 14:12:38
使用腾讯云主机,docker构建集群测试环境。 环境 1、操作系统: CentOS 7.2 64位 网路设置 hostname IP cluster-master 172.18.0.2 cluster-slave1 172.18.0.3 cluster-slave2 172.18.0.4 cluster-slave3 172.18.0.5 Docker 安装 curl -sSL https://get.daocloud.io/docker | sh ##换源 ###这里可以参考这篇文章http://www.jianshu.com/p/34d3b4568059 curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://67e93489.m.daocloud.io ##开启自启动 systemctl enable docker systemctl start docker 拉去Centos镜像 docker pull daocloud.io/library/centos:latest 使用 docker ps 查看下载的镜像 创建容器 按照集群的架构,创建容器时需要设置固定IP,所以先要在docker使用如下命令创建固定IP的子网 docker network create --subnet=172

Hadoop伪分布搭建

家住魔仙堡 提交于 2019-12-26 11:06:53
一、伪分布式的搭建 1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8 错误!未找到目录项。 .0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP:192.168.8.100 子网掩码:255.255.255.0 -> 点击确定 在虚拟软件上 --My Computer -> 选中虚拟机 -> 右键 -> settings -> network adapter -> host only -> ok 1.1修改主机名 vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=centos01 1.2修改IP 两种方式: 第一种:通过Linux图形界面进行修改(强烈推荐) 进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual ->

Hadoop简介

假如想象 提交于 2019-12-25 19:58:27
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Hadoop是什么? Hadoop 是一个由Apache基金会所开发的 分布式系统 基础架构。主要解决海量数据 存储 和海量数据的 分析计算 问题。广义上来说,Hadoop通常是指一个更广泛的概念———Hadoop生态圈。 Hadoop的优势 高可靠性 :Hadoop底层维护多个数据副本,所以即使Hadoop的某个计算元素或存储出现故障,也不会丢失数据。 高扩展性 :在集群间分配任务数据,可方便扩展数以千计的节点。 高效性 :在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。 高容错性 :能够自动将任务重新分配。 低成本 :Hadoop项目是开源的,项目软件的成本因此会大大降低。 Hadoop的组成 Common :为 Hadoop 其他模块提供支持的基础模块。 HDFS (Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。 MapReduce 为分布式计算框架,包含map(映射)和 reduce(归约)过程,负责在 HDFS 上进行计算。 YARN :任务分配和集群资源管理框架。 Hadoop的生态圈 HBase :HBase(Hadoop Database)是一个高可靠性、高性能、面向列

大数据运维初探之Hadoop搭建(入门)

微笑、不失礼 提交于 2019-12-25 00:02:55
0.大数据技术分类 1.批处理框架:Mapreduce 批处理历史数据 2.流处理框架:storm 一直处理源源不断的数据 3.混合处理框架:spark 1.生态圈核心项目 1.HDFS分布式文件系统 2.yarn调度与管理 3.mapreduce数据并行处理 2.生态圈相关项目 1.hive数据仓库基础架构 2.hbase分布式数据库 3.ambari监控与管理 4.spark快速计算 5.zookeeper协调服务 等等 3.HDFS定义与特点 定义:hadoop分布式文件系统 特点:高容错,廉价机,高吞吐,大文件,分块存 关键词 1.block:128m/块 2.集群架构: Namenode:接受请求,纂写目录,管理文件》块》Datanode的关系 Datanode:分块存储,多副本 5.HDFS写数据过程 1.请求上船 2.Namenode检查路径 3.返回可以上船 4.上传一个block,指明副本数量 5.查询Datanode信息 6.返回写入Dn地址和策略 7.请求Dn传数据和副本数量 8.Dn之间建立副本通道 9.通道建立应答 10.Dn回应客户准备就绪 11.传输block 12.副本生成 13.通知Nn接受到了新数据,建立影射 14.返回客户成功 6.HDFS写过程 1.请求读取 2.Nn获取文件块信息 3.信息传回客户端 4.分别请求Dn 5.分别从Dn读取 7

AWS EC2 搭建 Hadoop 和 Spark 集群

笑着哭i 提交于 2019-12-24 21:31:58
前言 本篇演示如何使用 AWS EC2 云服务搭建集群。当然在只有一台计算机的情况下搭建完全分布式集群,还有另外几种方法:一种是本地搭建多台虚拟机,好处是免费易操控,坏处是虚拟机对宿主机配置要求较高,我就一台普通的笔记本,开两三个虚拟机实在承受不起; 另一种方案是使用 AWS EMR ,是亚马逊专门设计的集群平台,能快速启动集群,且具有较高的灵活性和扩展性,能方便地增加机器。然而其缺点是只能使用预设的软件,如下图: 如果要另外装软件,则需要使用 Bootstrap 脚本,详见 https://docs.aws.amazon.com/zh_cn/emr/latest/ManagementGuide/emr-plan-software.html?shortFooter=true ,可这并不是一件容易的事情,记得之前想在上面装腾讯的 Angel 就是死活都装不上去。 另外,如果在 EMR 上关闭了集群,则里面的文件和配置都不会保存,下次使用时全部要重新设置,可见其比较适用于一次性使用的场景。 综上所述,如果使用纯 EC2 进行手工搭建,则既不会受本地资源限制,也具有较高的灵活性,可以随意配置安装软件。而其缺点就是要手工搭建要耗费较多时间,而且在云上操作和在本地操作有些地方是不一样的,只要有一步出错可能就要卡壳很久,鉴于网上用 EC2 搭建这方面资料很少

大数据篇[Hadoop]-01

我的梦境 提交于 2019-12-24 14:48:50
如约而至,你们好我是AC,就是啊晨的意思, 今天讲hadoop,是大数据开发工程师必备技术之一 好吧,废话不多说,跟我一起,先入个hadoop的门吧 文章目录 什么是Hadoop? 简单叙述: 发展历史 Hadoop特点 核心组成 HDFS架构概述 一、HDFS简介 二、HDFS组成结构以及各部分作用 1.Client(客户端) 2.NameNode(书的目录) 3.DataNode(实际的内容) 4.Secondary NameNode(辅助NameNode) YARN架构概述 MapReduce架构概述 大数据生态体系(了解知识扩展) 什么是Hadoop? 简单叙述: 为了方便理解简单叙述,关于正式介绍,百度了解即可,我就稍微总结下吧 由Apache基金会所开发的分布式系统基础架构,广泛的概念-hadoop生态圈 架构:项目整体的布局方式 集群:多个机器共同完成一件事 分布式:多个集群做不同的事 集群不一定是分布式,分布式一定是集群 主要解决:海量数据的存储和海量数据的分析计算问题。 发展历史 Lucene–Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 2001年年底成为apache基金会的一个子项目 可以说Google是hadoop的思想之源

hadoop集群搭建的常见错误

早过忘川 提交于 2019-12-24 11:31:40
安装hadoop常见错误整理: (这里会不断地添加,也希望大家多提一些错误一起解决) 1. Hadoop初始化错误INFO org.apache.hadoop.ipc.Client: Retryingconnect to server: uec-fe/16.157.63.10:9000. Already tried 0 time(s). 这种情况对数出现在启动namenode时成功,但是运行job时就会一直连接。 通过查看TaskTracker日志可以看到不停地Retryingconnect,但是一直连不上,有如下解决办法: A:在启动hadoop前没有格式化namenode,需要再每次启动前格式化namenode bin/hadoop namenode –format B:如果格式化后还存在相同的问题:需要先停掉hadoop,hadoop默认配置把一些文件放到/tmp 下,我们需要删除所有机器上的/tmp/hadoop-roor/(你的用户名)的文件,然后重新格式化后,启动服务。 C:也可以自定义tmp文件的位置,编辑conf/core-site.xml文件 <property> <name>hadoop.tmp.dir</name> <value>/var/log/hadoop/tmp</value> <description>Abase for other temporary

Windows上搭建hadoop开发环境

自古美人都是妖i 提交于 2019-12-24 10:54:47
前言 Windows下运行 Hadoop ,通常有两种方式:一种是用VM方式安装一个 Linux 操作系统 ,这样基本可以实现全Linux环境的Hadoop运行;另一种是通过Cygwin模拟Linux环境。后者的好处是使用比较方便,安装过程也简单,本篇文章是介绍第二种方式Cygwin模拟Linux环境。 准备工作 (1)安装JDK1.6或更高版本,安装时注意,最好不要安装到带有空格的路径名下,例如:Programe Files,否则在配置Hadoop的配置文件时会找不到JDK。 (2)hadoop官网下载hadoop http://hadoop.apache.org/releases.html 。 安装Cygwin Cygwin是Windows平台下模拟Unix环境的工具,需要在安装Cygwin的基础上安装Hadoop,下载地址: http://www.cygwin.com/ 根据操作系统的需要下载32位或64的安装文件。 一、双击下载好的安装文件,点击下一步进入程序引导安装页,这里有三个选项,选择第一项网络安装: 网络安装:通过网络下载并安装软件包 下载但不安装:通过网络下载软件包 本地安装:是用本地软件包安装 二、选择install from internet 三、选择安装路径 三、选择local Package Directory 四、选择您的Internet连接方式 五

hadoop HA搭建

不羁的心 提交于 2019-12-24 01:08:11
概述 hadoop2中NameNode可以有多个(目前只支持2个)。每一个都有相同的职能。一个是active状态的,一个是standby状态的。当集群运行时,只有active状态的NameNode是正常工作的,standby状态的NameNode是处于待命状态的,时刻同步active状态NameNode的数据。一旦active状态的NameNode不能工作,standby状态的NameNode就可以转变为active状态的,就可以继续工作了。 2个NameNode的数据其实是实时共享的。新HDFS采用了一种共享机制,Quorum Journal Node(JournalNode)集群或者Nnetwork File System(NFS)进行共享。NFS是操作系统层面的,JournalNode是hadoop层面的,我们这里使用JournalNode集群进行数据共享(这也是主流的做法)。JournalNode的架构图如下: 两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时