hadoop集群搭建

HDFS伪分布式环境搭建

前提是你 提交于 2019-12-19 00:05:17
HDFS概述及设计目标 什么是HDFS: 是Hadoop实现的一个分布式文件系统(Hadoop Distributed File System),简称HDFS 源自于Google的GFS论文 论文发表于2003年,HDFS是GFS的克隆版 HDFS的设计目标: 非常巨大的分布式文件系统 运行在普通廉价的硬件上 易扩展、为用户×××能不错的文件存储服务,也就是容错性 HDFS官方文档地址如下: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html HDFS架构 HDFS是主/从式的架构。一个HDFS集群会有一个NameNode(简称NN),也就是命名节点,该节点作为主服务器存在(master server)。NameNode用于管理文件系统的命名空间以及调节客户访问文件。此外,还会有多个DataNode(简称DN),也就是数据节点,数据节点作为从节点存在(slave server)。通常每一个集群中的DataNode,都会被NameNode所管理,DataNode用于存储数据。 HDFS公开了文件系统名称空间,允许用户将数据存储在文件中,就好比我们平时使用操作系统中的文件系统一样,用户无需关心底层是如何存储数据的。而在底层,一个文件会被分成一个或多个数据块

大数据之hadoop

試著忘記壹切 提交于 2019-12-18 22:19:45
1.大数据概念 大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 主要解决的是 海量数据的存储、海量数据的分析计算、统一资源管理调度 大数据特点:1、volume(大量) 2、velocity(高速) 3、variety(多样) 4、value(低价值密度) 2.Hadoop 1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2、主要解决,海量数据的存储和海量数据的分析计算问题。 3、广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈 2.1三大发行版本 Apache 最原始的版本,对于入门学习最好 Cloudera 在大型互联网企业中用的比较多 Hortonworks 文档较好 2.2Hadoop的优势(4高) 1、高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。 3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。 4、高容错性:能够自动将失败的任务重新分配 2.3Hadoop组成 在Hadoop1.x时代

Hadoop集群里执行程序出现异常就要寻找日志文件查看情况

◇◆丶佛笑我妖孽 提交于 2019-12-18 18:08:43
当我们运行Hadoop执行我们的程序时,很多时候因为我们的各种无法猜测得到的原因导致程序执行出现异常情况,当然这时的我们也会很苦恼并大声尖叫“太TM难了,呜呜呜~”,莫着急! 出现这样的情况就需要我们冷静下来啦,现在我们就需要去寻找异常的原因了,并不是靠我们去猜测的啦!那么,我该如何去寻找异常情况呢? 在Hadoop里执行程序是有日志文件去记录的,就好比如我们微信聊天都有聊天记录咯。以下用一个例子进入正题吧! 异常描述:刚搭建好的Hadoop完全分布式集群,master机器上格式化和开启都没有任何异常报错,问题来了:然后“jps”命令查看进程,master机器上的启动进程正常,slave1机器上的进程就只有jps,接着slave2机器上的进程也正常。 寻找异常情况:这时我们就去slave1机器上寻找并查看日志文件,具体位置就是在我们的Hadoop路径里的 logs 目录里。 所以,我们这里slave1的日志就图上的slave目录里了,进入到里面就可以看到后缀名为.log的日志文件了。如下图: 所以我们用more指令查看日志文件的内容就好了,按照上图就执行以下指令咯; more hadoop-root-datanode-slave1.log 命令执行后就会有执行的情况的了,针对上面的情况查看了日志文件有以下异常信息: 在异常信息可以看到,配置文件yarn-site

Hadoop 学习

随声附和 提交于 2019-12-18 14:22:10
Core/Common 为其他子项目提供支持的工具,包括FileSystem、RPC、和串行化库、提供API Avro 用于数据序列化的系统,数据的读和写是在模式下完成,数据和模式都是自描述的,客户端和服务端通过握手协议进行模式的交换。客户端和服务端拥有相同的全部的模式,不同模式下的相同命名字段、丢失字段和附加字段得到了很好的解决。 MapReduce 是一种编程模式,用于大规模数据的并行处理,让编程人员不用关注分布式并行编程。核心理念是映射map、化简reduce。MapReduce工作时,先指定一个map函数,把输入的kv键值对,转换成一组新的kv键值对,经过一定处理后交给reduce,reduce对相同key下的所有value进行处理,再输出kv键值对作为最终的结果。 HDFS 分布式文件系统,具有:高一致性、检测和快速恢复硬件故障、流式的数据访问、简化一致性模型、TCP通信协议 有NameNode、DataNode、Client三个角色 Chukwa 数据收集系统,监控和分析大型分布式系统的数据。在HDFS和MapReduce基础上搭建的 Hiv 建立在Hadoop基础上的数据仓库,提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中数据集的工具。提供了类似于SQL的Hive QL语言。提供了结构化的数据机制。 支持三种连接模式:Single User Model

搭建Hadoop2.0(二)hadoop环境配置

最后都变了- 提交于 2019-12-18 04:29:58
1.Hadoop2.0 简述 [1] 与之前的稳定的hadoop-1.x相比,Apache Hadoop 2.x有较为显著的变化。这里给出在HDFS和MapReduce两方面的改进。   HDFS:为了保证name服务器的规模水平,开发人员使用了多个独立的Namenodes和Namespaces。这些Namenode是联合起来的,它们之间不需要相互协调。Datanode可以为所有Namenode存放数据块,每个数据块要在平台上所有的Namenode上进行注册。Datenode定期向Namenode发送心跳信号和数据报告,接受和处理Namenodes的命令。   YARN(新一代MapReduce):在hadoop-0.23中介绍的新架构,将JobTracker的两个主要的功能:资源管理和作业生命周期管理分成不同的部分。新的资源管理器负责管理面向应用的计算资源分配和每个应用的之间的调度及协调。   每个新的应用既是一个传统意义上的MapReduce作业,也是这些作业的 DAG(Database Availability Group数据可用性组),资源管理者(ResourcesManager)和管理每台机器的数据管理者(NodeManager)构成了整个平台的计算布局。   每一个应用的应用管理者实际上是一个架构的数据库,向资源管理者(ResourcesManager)申请资源

hadoop2.2分布式环境搭建

你离开我真会死。 提交于 2019-12-18 04:22:44
hadoop2.2的分布式环境需要配置的参数更多。但是需要安装的系统软件和单节点环境是一样的。 运行hadoop在非安全环境 hadoop的配置文件有两类: 1:只读的默认配置文件: core-default.xml,hdfs-default.xml,yarn-default.xml mapred-default.xml 2: 可配置的配置文件: core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml 除此之外,还可以修改bin目录下面的shell脚本,或者是hadoop-env.sh,yarn-env.sh。 为了配置集群,需要配置hadoop进程运行需要的环境参数。hadoop的守护进程为NameNode/DataNode和ResourceManager 配置hadoop进程的环境 参数 管理员需要使用conf/hadoop-env.sh和conf/yarn-env.sh脚本来定制化hadoop进程的环境。最少也要配置JAVA_HOME环境。大多数情况下需要制定HADOOP_PID_DIR和HADOOP_SECURE_DIR来指定目录,改目录是启动hadoop进程的用户可以写入的。 例如:export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC ${HADOOP_NAMENODE

Hadoop3.2 +Spark3.0全分布式安装

被刻印的时光 ゝ 提交于 2019-12-17 00:35:32
Hadoop3.2 +Spark3.0全分布式安装 目前Apache官网已经推出了最新版的Haoop3.2和最新版的Spark3.0,比原来增加了很多新特性。Hadoop的安装主要是为Spark提供HDFS的支持和yarn的调度。那么我们将在本文介绍全分布式的Hadoop和Spark的安装方法,供大家参考。 安装系统:Ubuntu 16.04 主节点(Master)数量:1 从节点(Slave)数量:2 一、前期准备 1.设置用户 在三台机器上新建Hadoop用户并设置sudo权限: $ su 输入密码 $useradd -m hadoop -s /bin/bash $passwd hadoop 设置密码 $adduser hadoop sudo # 为用户hadoop增加管理员权限 这样做的目的主要是为了避免使用 root 用户,从安全考虑。 2.安装Java和Scala并设置相应的环境变量 Hadoop3.0之后的版本只支持Java8以后的版本。下载完jdk解压之后放置于’/usr/lib/jvm’下面(目录可以更改),下载完之后在‘/etc/profile’中配置相关的环境变量 export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64 export JRE_HOME=/usr/lib/jvm/java-1.8.0

Hadoop的介绍

爷,独闯天下 提交于 2019-12-16 23:30:05
今日内容 ​ Hadoop的介绍 ​ 集群环境搭建准备工作 ​ Linux命令和Shell脚本增强 ​ 集群环境搭建 大数据概述 ​ 大数据: 就是对海量数据进行分析处理,得到一些有价值的信息,然后帮助企业做出判断和决策. ​ 处理流程: ​ 1:获取数据 ​ 2:处理数据 ​ 3:展示结果 1:Hadoop介绍 Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理. 它主要解决两个问题 ​ 大数据存储问题 : HDFS ​ 大数据计算问题 :MapReduce 问题一: 大文件怎么存储? 假设一个文件非常非常大,大小为1PB/a.txt, 大到世界上所有的高级计算机都存储不下, 怎么办? 为了保存大文件, 需要把文件放在多个机器上 文件要分块 block(128M) 不同的块放在不同的 HDFS 节点 同时为了对外提供统一的访问, 让外部可以像是访问本机一样访问分布式文件系统 有一个统一的 HDFS Master 它保存整个系统的文件信息 所有的文件元数据的修改都从 Master 开始 问题二: 大数据怎么计算? 从一个网络日志文件中计算独立 IP, 以及其出现的次数如果数据量特别大,我们可以将,整个任务拆开, 划分为比较小的任务, 从而进行计算呢。 问题三: 如何将这些计算任务跑在集群中? 如果能够在不同的节点上并行执行,

Hadoop完全分布式集群搭建

风格不统一 提交于 2019-12-16 10:52:52
Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统。,用于开发和调试。 伪分布式模式(Pseudo Distrubuted Mode),使用的是分布式文件系统,守护进程运行在本机机器,模拟一个小规模的集群,在一台主机模拟多主机,适合模拟集群学习。 完全分布式集群模式(Full Distributed Mode),Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。 这里介绍的就是如何搭建一个Hadoop完全分布式集群。 安装环境介绍 准备了四个服务器,IP为192.168.0.236、192.168.0.237、192.168.0.238、192.168.0.239,其中192.168.0.236作为主节点,其他3个作为从节点。具体版本信息如下: CentOS 7.4 JDK 8 Hadoop 2.10.0 准备安装环境 设置主机名 在各个服务器上修改对应的主机名: #在192.168.0.236上执行: hostnamectl set-hostname onemore-hadoop-master #在192.168.0.237上执行: hostnamectl set-hostname onemore-hadoop-slave1

Hadoop完全分布式集群搭建

℡╲_俬逩灬. 提交于 2019-12-16 10:13:26
Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统。,用于开发和调试。 伪分布式模式(Pseudo Distrubuted Mode),使用的是分布式文件系统,守护进程运行在本机机器,模拟一个小规模的集群,在一台主机模拟多主机,适合模拟集群学习。 完全分布式集群模式(Full Distributed Mode),Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。 这里介绍的就是如何搭建一个Hadoop完全分布式集群。 欢迎关注微信公众号: 万猫学社 ,每周一分享Java技术干货。 安装环境介绍 准备了四个服务器,IP为192.168.0.236、192.168.0.237、192.168.0.238、192.168.0.239,其中192.168.0.236作为主节点,其他3个作为从节点。具体版本信息如下: CentOS 7.4 JDK 8 Hadoop 2.10.0 欢迎关注微信公众号: 万猫学社 ,每周一分享Java技术干货。 准备安装环境 设置主机名 在各个服务器上修改对应的主机名: #在192.168.0.236上执行: hostnamectl set-hostname onemore-hadoop-master