hadoop集群搭建

使用docker安装分布式hadoop(阿里hadoop镜像)

一世执手 提交于 2019-12-07 14:58:31
前面使用了docker自带的镜像安装,那么这篇使用阿里镜像搭建hadoop集群,也参考了网上部分播客,但是多多少少有问题,我这篇播客是全部经过实践测试成功跑起来的。 1、安装hadoop镜像 1)拉取镜像 拉取阿里的hadoop镜像 docker pull registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop 查看镜像 docker images 3)创建hadoop容器 (1)创建master节点 docker run --name master -d -h master registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop 参数说明: -h 为容器设置主机名 –name 设置容器的名称 -d 在后台运行 (2)以此方法创建slave1和slave2节点 docker run --name slave1 -d -h slave1 registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop docker run --name slave2 -d -h slave2 registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop (3)查看容器 docker ps -s (4)进入容器查看jdk docker exec -it master

Spark1.0.0 应用程序部署工具spark-submit

女生的网名这么多〃 提交于 2019-12-06 19:36:45
问题导读: 1、Spar的应用程序部署工具都提供哪些功能? 2、Spar的应用程序部署工具有哪些? 3、什么是spark-submit? 随着Spark的应用越来越广泛,对支持多资源管理器应用程序部署工具的需求也越来越迫切。Spark1.0.0的出现,这个问题得到了逐步改善。从 Spark1.0.0开始,Spark提供了一个容易上手的应用程序部署工具bin/spark-submit,可以完成Spark应用程序在 local、Standalone、YARN、Mesos上的快捷部署。 1:使用说明 进入$SPARK_HOME目录,输入bin/spark-submit --help可以得到该命令的使用帮助。 hadoop @wyy :/app/hadoop/spark100$ bin/spark-submit --help Usage: spark-submit [options] <app jar | python file> [app options] 复制代码 Options: --master MASTER_URL spark://host:port, mesos://host:port, yarn, or local. --deploy-mode DEPLOY_MODE driver运行之处,client运行在本机,cluster运行在集群 --class CLASS_NAME

--Hadoop相关零散知识点

人盡茶涼 提交于 2019-12-06 18:24:25
Hadoop学习笔记: 1 、 Hadoop 三种安装模式 本地模式 :本地模式是 Hadoop 默认的模式,只有 Hadoop 被配置成以非分布式模式运行的一个独立 Java 进程。默认模式下所有 3 个 XML 文件均为空,此时, Hadoop 会完全运行在本地。它只负责存储,没有计算功能。 伪分布式模式 :伪分布式模式是在一台机器上模拟分布式部署,方便学习和调试。使用多个守护线程模拟分布的伪分布运行模式,此时每个 Hadoop 守护进程都作为一个独立的 Java 进程运行。 集群模式 :真正多台机器来搭建分布式集群。 2 、 Hadoop 集群 -- 图解 Hadoop 集群是在同一地点用网络互连的一组通用机器。数据存储和处理都发生在这个机器“云“中。不同的用户可以从独立的客户端提交计算“作业“到 Hadoop ,这些客户端可以是远离 Hadoop 集群的个人台式机。 注:虽非绝对必要,但通常在一个 Hadoop 集群中的机器都是相对同构的 X86 Linux 服务器。而且它们几乎总是位于同一个数据中心,并通常在同一组机架里。 3 、机架结构图 — 图解 节点 : H1 、 H2 、 H3 、 H4 … … 节点 H1 、 H4 、 H7 的机架名对应为: /D1/R1 、 /D1/R2 、 /D2/R3 … … 机架: R1 、 R2 、 R3 … … 数据中心: D1 、

HDFS——复习整理

拈花ヽ惹草 提交于 2019-12-06 13:31:23
HDFS——复习整理 一、问题 分布式文件系统那么多,为什么hadoop项目中还要开发一个分布式文件系统呢? 二、存储模型 文件线性字节切割成块(Block),具有offset,id 文件与文件的block大小可以不一样 一个文件除了最后一个block,其他block大小一致 block大小依据硬件I/O进行调整 block被分散存放在集群节点中,具有location block具有副本(replication),没有主从概念,副本不能出现在同一个节点 副本是满足可靠性和性能的关键 文件上传可以指定block大小和副本数,上传后只能修改副本数 一次写入多次读取,不支持修改 支持追加数据 三、架构设计 HDFS是一个主从(Master/Slaves)架构 由一个NameNode和一些DataNode组成 面向文件包含:文件数据(data)和文件元数据(metadata) NameNode负责存储和管理文件元数据,并且维护了一个层次性文件目录树 DataNode负责存储文件数据(block块),并提供block读写 DataNode与NameNode维持心跳,并汇报自己持有的block信息 Client和NameNode交互文件元数据和DataNode交互文件block数据 HDFS Architecture Replication 四、角色功能 NameNode

一步步教你搭建Hadoop集群

落花浮王杯 提交于 2019-12-06 08:33:00
一、准备工作 假设现在有4台机器,分别是:192.168.1.101,192.168.1.102,192.168.1.103,192.168.1.104。 这里以Centos7系统为例 (不同版本的Linux系统在做某些操作时命令不一样,可自行百度) 四个节点都有登录账户hadoop。 我们计划这么配置: 先关闭防火墙 systemctl stop firewalld . service systemctl stop iptables . service 然后再检查各机器的22端口是否开放 这里我们把ip映射成主机名,执行如下命令: vi / etc / hosts 在hosts文件中,编辑以下内容 192.168 . 1.101 node1 192.168 . 1.102 node2 192.168 . 1.103 node3 192.168 . 1.104 node4 保存退出 检查node1的3306端口是否开放 然后将hosts文件发送到其它节点上 scp / etc / hosts hadoop@node2 : /etc/ scp / etc / hosts hadoop@node3 : /etc/ scp / etc / hosts hadoop@node4 : /etc/ 在发送的过程中需要输入hadoop用户的密码 二、配置免密码登录 然后在家目录下执行 ssh -

Hadoop中如何将namenode和secondary namenode分开在不同服务器上。

半城伤御伤魂 提交于 2019-12-06 06:07:04
在一套已经搭建好的Hadoop集群中,默认将namenode和secondary namenode都在master上运行,现在介绍一种方法,将他们分开配置。 Cluster环境,具体环境参考另一篇博客《Hadoop 集群cluster搭建》。简单来说4台机器,hadoop1做master,其他三台hadoop2 hadoop3 hadoop4作为slave。现在我要将secondary namenode放到hadoop2中。 另外 hadoop版本为2.7.1。 配置: 1 在配置目录$HADOOP_HOME/etc/hadoop增加文件,名为masters。每台都配置,下同。 [appadmin@hadoop1 hadoop]$ more masters hadoop2 2 配置hdfs-site.xml <property> <name>dfs.namenode.http-address</name> <value>hadoop1:50070</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>hadoop2:50090</value> </property> 重启即可。 从网上的资料来看,还说到了要修改core-site.xml中的fs

Hadoop_简介_01

旧巷老猫 提交于 2019-12-06 03:23:46
1. Apache Hadoop    1.1 Hadoop介绍     Hadoop是Apache旗下的一个用 java 语言实现的开源软件框架, 是一个开发和运行处理大规模数据的软件平台. 允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理 . Hadoop不会跟某种具体的行业或者某个具体的业务挂钩, 他只是一种用来做海量数据分析处理的工具.          狭义上说, Hadoop指Apache这款开源框架, 其核心组件有:       HDFS (分布式文件系统) : 解决海量数据存储       YARN (作业调度和集群资源管理的框架) : 解决资源任务调度       MAPREDUCE (分布式运算编程框架) : 解决海量数据计算     广义上说, Hadoop通常是指一个更广泛的概念 -- Hadoop生态圈.          当下的Hadoop已经成长为一个庞大的 体系 .     HDFS: 分布式文件系统     MAPREDUCE: 分布式运算程序开发框架     HIVE: 基于Hadoop的分布式数据仓库, 提供基于SQL的查询数据操作     HBASE: 基于Hadoop的分布式海量数据数据库     ZOOKEEPER: 分布式协调服务基础组件     Mahout: 基于MR / Spark /

第一章《数据之路,始于Hadoop》第一节 Hadoop 基础介绍

早过忘川 提交于 2019-12-05 23:03:21
第一节 hadoop介绍 大数据时代最重要的论文是Google三篇,分布讲述了GFS、MapReduce和BigTable。而依照前两篇论文设计的开源项目Hadoop,则迅速风靡,成为了大数据行业的事实标准。Google的论文建议要看,尤其是前2偏,其实并没有难度,看完对于Hadoop的理解会更加清晰。 大数据为什么会兴起?没有大数据以前是怎么做的? 这2个问题其实以我的经验回答不是很合适,但是既然提到,就 仅从个人的经验出发来说下必要性 。 进入大数据行业第一节公司是一个移动SDK公司,主要是嵌入SDK通过展示广告、APP推荐下载等来给开发者带来收入。当时的第一个项目是分析这些SDK一天的日志(apache日志),对下载的每个APP按省份做一个排序。任务交给了SDK开发团队,具体的方案不清楚,但是一天的数据需要跑10小时以上(记忆模糊,4年前文章提到过此事)。后来用Hadoop,写了简单的MR处理,大概10多分钟就搞定了,这就是大数据存在的意义,也能从一个角度反应为什么会兴起。 关于Hadoop,首先必须要介绍下概念?现在有很多初学者,一上来就问Datanode是什么?Datanode和NodeManager能不能在一台节点上?对于这种问题,我的回答都是“太小白,先看看书吧”。对于Hadoop的学习,很多人从Cloudera Manager或者Ambari开始,我个人非常不建议

在Docker中跑Hadoop与镜像制作

柔情痞子 提交于 2019-12-05 13:32:03
  重复造轮子,这里使用重新打包生成一个基于Docker的Hadoop镜像;   Hadoop集群依赖的软件分别为:jdk、ssh等,所以只要这两项还有Hadoop相关打包进镜像中去即可; 配置文件准备 1、Hadoop相关配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves、hadoop-env.sh 2、ssh配置文件:ssh_config 3、Hadoop集群启动文件:start-hadoop.sh 制作镜像 1、安装依赖 RUN apt-get update && \ apt-get install -y openssh-server openjdk-8-jdk wget 2、下载Hadoop包 RUN wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz && \ tar -xzvf hadoop-2.10.0.tar.gz && \ mv hadoop-2.10.0 /usr/local/hadoop && \ rm hadoop-2.10.0.tar.gz && \ rm /usr/local/hadoop/share/doc -rf 3、配置环境变量 ENV

《Hadoop》大数据技术开发实战学习笔记(二)

岁酱吖の 提交于 2019-12-05 11:25:27
搭建Hadoop 2.x分布式集群 Hadoop集群角色分配 上传Hadoop并解压 在centos01中,将安装文件上传到/opt/softwares/目录,然后解压安装文件到/opt/modules/ cd /opt/softwares/ tar -zxf hadoop-2.9.2.tar.gz -C /opt/modules/ 配置环境变量 只需配置 来源: https://www.cnblogs.com/zonkidd/p/11922345.html