hadoop开发环境搭建

Hadoop完全分布式集群搭建

风格不统一 提交于 2019-12-16 10:52:52
Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统。,用于开发和调试。 伪分布式模式(Pseudo Distrubuted Mode),使用的是分布式文件系统,守护进程运行在本机机器,模拟一个小规模的集群,在一台主机模拟多主机,适合模拟集群学习。 完全分布式集群模式(Full Distributed Mode),Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。 这里介绍的就是如何搭建一个Hadoop完全分布式集群。 安装环境介绍 准备了四个服务器,IP为192.168.0.236、192.168.0.237、192.168.0.238、192.168.0.239,其中192.168.0.236作为主节点,其他3个作为从节点。具体版本信息如下: CentOS 7.4 JDK 8 Hadoop 2.10.0 准备安装环境 设置主机名 在各个服务器上修改对应的主机名: #在192.168.0.236上执行: hostnamectl set-hostname onemore-hadoop-master #在192.168.0.237上执行: hostnamectl set-hostname onemore-hadoop-slave1

Hadoop完全分布式集群搭建

℡╲_俬逩灬. 提交于 2019-12-16 10:13:26
Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统。,用于开发和调试。 伪分布式模式(Pseudo Distrubuted Mode),使用的是分布式文件系统,守护进程运行在本机机器,模拟一个小规模的集群,在一台主机模拟多主机,适合模拟集群学习。 完全分布式集群模式(Full Distributed Mode),Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。 这里介绍的就是如何搭建一个Hadoop完全分布式集群。 欢迎关注微信公众号: 万猫学社 ,每周一分享Java技术干货。 安装环境介绍 准备了四个服务器,IP为192.168.0.236、192.168.0.237、192.168.0.238、192.168.0.239,其中192.168.0.236作为主节点,其他3个作为从节点。具体版本信息如下: CentOS 7.4 JDK 8 Hadoop 2.10.0 欢迎关注微信公众号: 万猫学社 ,每周一分享Java技术干货。 准备安装环境 设置主机名 在各个服务器上修改对应的主机名: #在192.168.0.236上执行: hostnamectl set-hostname onemore-hadoop-master

大数据平台Hadoop的分布式集群环境搭建

感情迁移 提交于 2019-12-14 21:42:24
1 概述 本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Hadoop节点的部署图,将NameNode部署在master1,SecondaryNameNode部署在master2,slave1、slave2、slave3中分别部署一个DataNode节点 NN=NameNode(名称节点) SND=SecondaryNameNode(NameNode的辅助节点) DN=DataNode(数据节点) 2 前期准备 (1)准备五台服务器 如:master1、master2、slave1、slave2、slave3 (2)关闭所有服务器的防火墙 $ systemctl stop firewalld$ systemctldisablefirewalld (3)分别修改各服务器的/etc/hosts文件,内容如下: 192.168.56.132 master1 192.168.56.133 master2 192.168.56.134 slave1 192.168.56.135 slave2 192.168.56.136 slave3 注:对应修改个服务器的/etc/hostname文件,分别为 master1、master2、slave1、slave2、slave3 (4)分别在各台服务器创建一个普通用户与组 $ groupadd hadoop#增加新用户组$ useradd

大数据平台Hadoop的分布式集群环境搭建

拈花ヽ惹草 提交于 2019-12-14 09:40:19
1 概述 本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Hadoop节点的部署图,将NameNode部署在master1,SecondaryNameNode部署在master2,slave1、slave2、slave3中分别部署一个DataNode节点 NN=NameNode(名称节点) SND=SecondaryNameNode(NameNode的辅助节点) DN=DataNode(数据节点) 2 前期准备 (1)准备五台服务器 如:master1、master2、slave1、slave2、slave3 (2)关闭所有服务器的防火墙 $ systemctl stop firewalld$ systemctldisablefirewalld (3)分别修改各服务器的/etc/hosts文件,内容如下: 192.168.56.132 master1 192.168.56.133 master2 192.168.56.134 slave1 192.168.56.135 slave2 192.168.56.136 slave3 注:对应修改个服务器的/etc/hostname文件,分别为 master1、master2、slave1、slave2、slave3 (4)分别在各台服务器创建一个普通用户与组 $ groupadd hadoop#增加新用户组$ useradd

HBase基本介绍与安装

时光毁灭记忆、已成空白 提交于 2019-12-13 00:28:18
简介 hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。 主要用来存储结构化和半结构化的松散数据。 Hbase查询数据功能很简单,不支持join等复杂操作,不支持复杂的事务(行级的事务) Hbase中支持的数据类型:byte[] 与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。 HBase中的表一般有这样的特点: 大:一个表可以有上十亿行,上百万列 面向列:面向列(族)的存储和权限控制,列(族)独立检索。 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 传统数据表 HBase的发展历程 HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站: http://hbase.apache.org 2006年Google发表BigTable白皮书 2006年开始开发HBase 2008 HBase成为了 Hadoop的子项目

大数据入门学习之环境搭建:VM、CentOS7安装,jdk1.8安装,Hadoop2.0安装及网络配置

限于喜欢 提交于 2019-12-12 08:28:57
一:环境搭建:VM、CentOS7安装及网络配置 大数据入门首先需要搭建环境,接下来的三篇文章均是环境搭建部分的内容。 首先我们要安装虚拟机及linux系统 一、安装虚拟机VM 官网下载VM虚拟机:这里下载的VMware-workstation-full-10.0.4,好像往后的高版本需要win系统为64位,根据自己的需求下载安装。 二、安装CentOS7 1、 官网下载:我下载的是CentOS-7-x86_64-DVD-1804.iso文件。 2、 安装过程(略):自行百度安装,按照步骤安装无问题,可根据需要选择最小化安装,安装至最后一步骤时最好创建一个用户。 3、 复制出另外两台虚拟机,并对每台虚拟机命名为master、slave1、slave2。 三、网络配置 1、 配置网络为NAT模式,三台均需要配置; 2、 修改网卡配置,三台均需要修改 cd /etc/sysconfig/network-scripts vim ifcfg-ens33 添加内容:IPADDR=192.168.198.21 //ip地址 添加内容:NETMASK=255.255.255.0 添加内容:GATEWAY=192.168.198.2 //网关 添加内容:DNS1=8.8.8.8 3、 配置完成后重启网络服务 /etc/init.d/network restart 或 service network

Spark在Windows下的环境搭建

我是研究僧i 提交于 2019-12-10 11:58:02
一、JDK的安装 1、1 下载JDK   首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。 JDK (全称是JavaTM Platform Standard Edition Development Kit)的安装,去Oracle官网下载,下载地址是 Java SE Downloads 。   上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到这个最新版本的一些更为详细的信息,如下图所示:   下载完之后,我们安装就可以直接JDK,JDK在windows下的安装非常简单,按照正常的软件安装思路去双击下载得到的exe文件,然后设定你自己的安装目录(这个安装目录在设置环境变量的时候需要用到)即可。 1、2 JDK环境变量设置   接下来设置相应的环境变量,设置方法为:在桌面右击【计算机】--【属性】--【高级系统设置】,然后在系统属性里选择【高级】--【环境变量】,然后在系统变量中找到 “Path” 变量,并选择 “编辑” 按钮后出来一个对话框,可以在里面添加上一步中所安装的JDK目录下的bin文件夹路径名,我这里的bin文件夹路径名是:C:\Program Files\Java\jre1.8.0_92\bin,所以将这个添加到path路径名下,注意用英文的分号“;”进行分割。如图所示:   这样设置好后

大数据学习路线是怎么样的?

与世无争的帅哥 提交于 2019-12-09 16:39:54
1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此阶段可解决的现实问题: 搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务; 学完此阶段可拥有的市场价值: 具备初级程序员必要具备的Linux服务器运维能力。 1.内容介绍: 在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。 2.案例:搭建互联网高并发、高可靠的服务架构。 2.离线计算系统课程阶段 1. 离线计算系统课程阶段 hadoop核心技术框架 学完此阶段可掌握的核心能力: 1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;4、掌握HIVE数据仓库工具的工作原理及应用开发。 学完此阶段可解决的现实问题: 1、熟练搭建海量数据离线计算平台;2、根据具体业务场景设计、实现海量数据存储方案;3

hadoop学习1-Hadoop基础概念

孤者浪人 提交于 2019-12-08 19:02:45
大数据云计算出来也比较久了,目前也比较的火,最近打算学习下相关的知识。进行学习首先得选择一本书,这里我选择 Hadoop+Spark生态系统操作与实战指南,因为书比较薄,适合入门。作者也提供了相关的视频和配置文件,环境。 hadoop权威指南,书是不错,不过太厚,目前入门不想使用此书,此书打算放在后面再进行看。学习东西,比较喜欢由点到面,步步深入。我的博客也是自己学习总结的过程,同时希望也能帮助到一些人。想买书籍看的,可以点击链接 http://product.dangdang.com/25163568.html 。 要学hadoop首先我们需要了解一些相关的概念,知道hadoop是什么,可以干什么,然后我们才能深入的学习。 一:hadoop版本和生态系统 1,hadoop版本的优缺点 目前市面上hadoop主要有两种:apache版本和CDH版本 1)apache版本的hadoop 官网:http://hadoop.apache.org/ 优势:对硬件要求低 劣势:搭建繁琐,维护繁琐,升级繁琐,添加组件繁琐 2)CDH版本的hadoop 官网:https://www.cloudera.com/ 优势:搭建方便,维护较为容易,升级以及迁移容易,添加组件容易 缺点:对硬件要求高 2,Hadoop生态系统和组件介绍 Hadoop生态组件主要包括:MapReduce,HDFS,HBase

Hadoop MapReduceV2(Yarn) 框架

核能气质少年 提交于 2019-12-07 10:17:16
Hadoop MapReduceV2(Yarn) 框架简介 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介 。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些机器上,需要管理所有 job 失败、重启等操作。 TaskTracker 是 Map-reduce 集群中每台机器都有的一个部分,他做的事情主要是监视自己所在机器的资源情况。 TaskTracker 同时监视当前机器的 tasks 运行状况。TaskTracker 需要把这些信息通过 heartbeat 发送给 JobTracker,JobTracker 会搜集这些信息以给新提交的 job