hadoop集群搭建

你的大数据之Hadoop是如何去学习的?Hadoop300集了解一下

倾然丶 夕夏残阳落幕 提交于 2019-12-16 08:45:20
1. HADOOP背景介绍 1.1 什么是HADOOP HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈 1.2 HADOOP产生背景 HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。 ——分布式文件系统(GFS),可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。 Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。 1.3 HADOOP在大数据、云计算中的位置和关系 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化

大数据之Hadoop核心之HDFS

大兔子大兔子 提交于 2019-12-15 20:57:04
Hadoop 软件有三大核心,HDFS、Yarn、MapReduce。这里我们来说第一个核心HDFS,HDFS全称 Hadoop Distributed File System 是Apache Hadoop项目的一个子项目,是一个分布式文件系统,Hadoop能够适合存储大数量的数据比如TB和PB,其实就是使用的HDFS。HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。 HDFS适用的场景    存储非常大的文件:这里非常大指的是几百M、G、或者TB级别,需要高吞吐量,对延时 没有要求 。    采用流式的数据访问方式: 即一次写入、多次读取,数据集经常从数据源生成或者拷贝一次,然后在其上做很多分析工作 。    运行于商业硬件上: Hadoop不需要特别贵的机器,可运行于普通廉价机器,可以处节约成本需要高容错性为数据存储提供所需的扩展能力 HDFS不适用的场景    低延时的数据访问 对延时要求在毫秒级别的应用,不适合采用HDFS。HDFS是为高吞吐数据传输设计的,因此可能牺牲延时    大量小文件 文件的元数据保存在NameNode的内存中, 整个文件系统的文件数量会受限于NameNode的内存大小。 经验而言,一个文件/目录/文件块一般占有150字节的元数据内存空间。如果有100万个文件,每个文件占用1个文件块

Hadoop基础

て烟熏妆下的殇ゞ 提交于 2019-12-15 19:08:00
Hadoop基础 简介 Hadoop是 可靠的 、 可扩展 的开源 分布式计算 和 分布式存储 框架 由Hadoop Common,HDFS,MapReduce,Yarn 组成 HDFS :分布式文件系统 MapReduce :分布式计算框架 Yarn :资源调度系统 Hadoop的优势 高可靠 数据存储: 数据块多副本 数据计算: 某个节点崩溃, 会自动重新调度作业计算 高扩展性 存储/计算资源不够时,可以横向的线性扩展机器 一个集群中可以包含数以千计的节点 集群可以使用廉价机器,成本低 Hadoop生态系统成熟 Hadoop能做什么 搭建大型数据仓库 PB级数据的存储 处理 分析 统计等业务 搜索引擎 日志分析 数据挖掘 BI 1、HDFS(数据分块,冗余存储) HDFS的启动 $HADOOP_HOME/sbin/start-dfs.sh 退出安全模式(safemode) hdfs dfsadmin -safemode leave 通过 IP:50070 查看hdfs的运行状态 HDFS的shell命令 和linux指令基本一致 只是需要加上 hadoop fs -命令 常用的例如:ls text mv put rm 例 : hadoop fs - mkdir - p / hadoop001 / test # 在HDFS中创建文件夹 文件基本操作(上传,删除,下载)

搭建Hadoop集群需要注意的问题:

此生再无相见时 提交于 2019-12-15 14:38:34
搭建Hadoop集群需要注意的问题: 1.检查三台主机名是否正确 2.检查三台IP是否正确 3.检查 /etc/hosts 映射是否正确 4.检查 JDK和Hadoop 是否安装成功(看环境变量配置) 键入 :sudo vi /etc/profile 进到文件之后,检查环境变量配置是否正确: 5.检查 SSH免密码登录 是否设置成功: [master:主机名 server1:第一台从机名 server2:第二台从机名] 6.检查 Hadoop配置文件 进到hadoop目录下: 【注:Nahshon 为用户名,更改为你自己的虚拟机主机名】 接下来依次检查以下文件: vi ./hadoop-env.sh vi ./core-site.xml vi ./1.3.4hdfs-site.xml vi ./mapred-site.xml vi ./yarn-site.xml vi ./slaves 6.检查是否将主机的hadoop发到另外两台从机 如果没有,进到 modules,发送。 7.在不删除hadoop的情况下,只能进行一次 格式化hadoop。 . . 如果有错误,欢迎大家指出~ 来源: CSDN 作者: Nahshon 链接: https://blog.csdn.net/weixin_45747147/article/details/103546735

大数据平台Hadoop的分布式集群环境搭建

感情迁移 提交于 2019-12-14 21:42:24
1 概述 本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Hadoop节点的部署图,将NameNode部署在master1,SecondaryNameNode部署在master2,slave1、slave2、slave3中分别部署一个DataNode节点 NN=NameNode(名称节点) SND=SecondaryNameNode(NameNode的辅助节点) DN=DataNode(数据节点) 2 前期准备 (1)准备五台服务器 如:master1、master2、slave1、slave2、slave3 (2)关闭所有服务器的防火墙 $ systemctl stop firewalld$ systemctldisablefirewalld (3)分别修改各服务器的/etc/hosts文件,内容如下: 192.168.56.132 master1 192.168.56.133 master2 192.168.56.134 slave1 192.168.56.135 slave2 192.168.56.136 slave3 注:对应修改个服务器的/etc/hostname文件,分别为 master1、master2、slave1、slave2、slave3 (4)分别在各台服务器创建一个普通用户与组 $ groupadd hadoop#增加新用户组$ useradd

centOS7配置hadoop

耗尽温柔 提交于 2019-12-14 11:05:13
当前使用的是Oracle VM VirtualBox虚拟机软件 1.关闭防火墙 #第一步: 停止firewall systemctl stop firewalld.service #第二步:禁止firewall开机启动 systemctl disable firewalld.service #第三步:查看防火墙状态 systemctl status firewalld.servic (systemctl status firewalld) 2.增加网卡 3.修改静态IP cp /etc/sysconfig/network-scripts/ifcfg-enp0s3 /etc/sysconfig/network-scripts/ifcfg-enp0s8 vi /etc/sysconfig/network-scripts/ifcfg-enp0s8 修改ifcfg-enp0s8内容如下: TYPE=Ethernet PROXY_METHOD=none BROWSER_ONLY=no BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=no IPV6INIT=yes IPV6_AUTOCONF=yes IPV6_DEFROUTE=yes IPV6_FAILURE_FATAL=no IPV6_ADDR_GEN_MODE=stable-privacy

大数据平台Hadoop的分布式集群环境搭建

拈花ヽ惹草 提交于 2019-12-14 09:40:19
1 概述 本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Hadoop节点的部署图,将NameNode部署在master1,SecondaryNameNode部署在master2,slave1、slave2、slave3中分别部署一个DataNode节点 NN=NameNode(名称节点) SND=SecondaryNameNode(NameNode的辅助节点) DN=DataNode(数据节点) 2 前期准备 (1)准备五台服务器 如:master1、master2、slave1、slave2、slave3 (2)关闭所有服务器的防火墙 $ systemctl stop firewalld$ systemctldisablefirewalld (3)分别修改各服务器的/etc/hosts文件,内容如下: 192.168.56.132 master1 192.168.56.133 master2 192.168.56.134 slave1 192.168.56.135 slave2 192.168.56.136 slave3 注:对应修改个服务器的/etc/hostname文件,分别为 master1、master2、slave1、slave2、slave3 (4)分别在各台服务器创建一个普通用户与组 $ groupadd hadoop#增加新用户组$ useradd

hadoop的HA集群搭建

我怕爱的太早我们不能终老 提交于 2019-12-14 07:53:59
hadoop的HA集群搭建 环境 centos7,jdk1.8,zookeeper-3.5.5,hadoop-2.7.2 1.配置hosts:vi /etc/hosts 192.168.221.100 hadoop100 192.168.221.101 hadoop101 192.168.221.102 hadoop102 192.168.221.103 hadoop103 192.168.221.104 hadoop104 zookeeper的集群安装 1.进入zookeeper的conf目录下进行操作 cp zoo_sample.cfg zoo.cfg 2.zoo.cfg的配置 来源: CSDN 作者: smile-ls 链接: https://blog.csdn.net/qq_40198004/article/details/103470493

分布式资源调度——YARN框架

柔情痞子 提交于 2019-12-13 13:16:19
YARN产生背景 YARN是Hadoop2.x才有的,所以在介绍YARN之前,我们先看一下MapReduce1.x时所存在的问题: 单点故障 节点压力大 不易扩展 MapReduce1.x时的架构如下: 可以看到,1.x时也是Master/Slave这种主从结构,在集群上的表现就是一个JobTracker带多个TaskTracker。 JobTracker:负责资源管理和作业调度 TaskTracker:定期向JobTracker汇报本节点的健康状况、资源使用情况以及作业执行情况。还可以接收来自JobTracker的命令,例如启动任务或结束任务等。 那么这种架构存在哪些问题呢: 整个集群中只有一个JobTracker,就代表着会存在单点故障的情况 JobTracker节点的压力很大,不仅要接收来自客户端的请求,还要接收大量TaskTracker节点的请求 由于JobTracker是单节点,所以容易成为集群中的瓶颈,而且也不易域扩展 JobTracker承载的职责过多,基本整个集群中的事情都是JobTracker来管理 1.x版本的整个集群只支持MapReduce作业,其他例如Spark的作业就不支持了 由于1.x版本不支持其他框架的作业,所以导致我们需要根据不同的框架去搭建多个集群。这样就会导致资源利用率比较低以及运维成本过高,因为多个集群会导致服务环境比较复杂。如下图:

hadoop环境搭建

巧了我就是萌 提交于 2019-12-12 15:05:31
一 hadoop 简介 1 Hadoop 整体框架 Hadoop 由HDFS 、MapReduce、HBASE、hive 和zookeeper 等成员组成,其中最 基础最重要的元素是底层用于存储集群中所有存储节点文件的文件系统HDFS 来 执行MapReduce 程序的MapReduce 引擎 1 pig 是一个基于Hadoop 的大规模数据分析平台,pig 为复杂的海量数据并行计 算提供了一个简单的操作和编程接口 2 hive 是基于Hadoop 的一个工具,提供完整的SQL 查询,可以将sql 语句转换 为MapReduce (映射)任务进行执行 3 zookeeper:高效的,可扩展的协调系统,存储和协调关键共享状态 4 HBASE 是一个开源的,基于列存储模型的分布式数据库 5 hdfs 是一个分布式文件系统,具有高容错的特点,适合于那些超大数据集的应 用程序, 6 MapReduce 是一种编程模式,用于大规模数据集的并行计算 2 hadoop 集群部署结构 3 hadoop 核心设计 1 HDFS 是一个高度容错性的分布式文件系统,可以被广泛的部署于廉价的PC 上,他以流式访问模式访问应用程序的数据,这样可以提高系统的数据吞吐量,因而非常适合用于具有超大数据集的应用程序中 HDFS 架构采用主从架构,一个HDFS 集群应该包含一个namenode