hadoop开发环境搭建

hadoop 集群搭建与注意点

送分小仙女□ 提交于 2020-02-02 08:54:42
一花一世界 一叶一菩提。 这应该是第二次学习hadoop , 第一次是两年前,刚开始找工作,当时个人眼界 认为ssh 与移动app 开发比较流行,至于hadoop 是一个比较高端的东西,还有一个原因就是当时急需摆脱对父母的依赖,需要一份工作,用活自己;这两年过去了,再次从新审视大数据,感觉一切又回到起点,只不过个人心态,经历,行业环境都发生改变。 我用hadoop 2.7.3 算是比较新版本。 http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz (我用浏览器,百度云下载都失败, 最后用迅雷下载成功); hadoop 基本知识: (1)HADOOP是apache旗下的一套开源软件平台 (2)HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 ; (3)HADOOP的核心组件有 A.HDFS(分布式文件系统) B.YARN(运算资源调度系统) C.MAPREDUCE(分布式运算编程框架) hadoop 历史: (1) 当时 Nutch 爬虫框架, 面对海量的网页,面临两大瓶颈: 一个海量数据存储索引问题, 另外就是网页价值计算; (2)2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案: 一个是谷歌分布式存储GFS

大数据学习路线

心不动则不痛 提交于 2020-02-02 03:16:50
大数据处理从hadoop开始经过了几年的发展,生态越来越丰富,也越来越重要。就从目前的各个招聘网站来看也是薪资最高的。但是对于想进入大数据方面的开发人员从何处学习呢?我在网络收集了一些相关的资源,希望可以帮助到大家。 大数据处理流程与应用 一、Github上的学习资源BigData-Notes Github地址 : https://github.com/heibaiying/BigData-Notes 这个github上的资源是最为丰富的。该资源中详细的介绍了大数据学习的各个方面。从大数据收集、存储、分析、实时计算、还有其他相关的辅助技术。 1、数据收集:Flume 、Logstash、Kibana 2、数据存储:Hadoop HDFS 、KFS、GFS 3、数据分析:Hadoop MapReduce、Spark、Flink、Storm 4、实时计算:Spark、Flink、Storm 大数据学习路线图 二、Flink实时计算框架flink-learning Github地址 :https://github.com/zhisheng17/flink-learning 该资源介绍了flink相关的知识点,同时也包含与各种中间件集成的例子。是个不错的学习资源。 总之学习大数据要先学会相关的开发语言。目前大数据相关的开发语言Java、Scala。另外就是要知道相关的大数据收集相关的框架了

hadoop大数据基础概念解读(一)

穿精又带淫゛_ 提交于 2020-01-28 08:06:40
前言:近几年大数据应用越来越火,各行各业都在利用大数据为自己服务,现在出去,如果说自己公司没用上大数据或者不知道点大数据的东西,感觉都不是IT的,那么今天小编就带大家从基础认识认识大数据。 1 hadoop简介 目前来看大数据应用当然有很多,hadoop,spark,mapR,EMC等一堆技术。今天我们来说说hadoop, 简单来讲Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。 作用:储存数据,查询数据,综合分析 大数据特点:大量,多样,实时,不确定 2 hadoop组成 Hadoop:Java编写的软件框架,以支持数据密集型分布式应用 ZooKeeper:高可靠性分布式协调系统 MapReduce:针对大数据的灵活的并行数据处理框架 HDFS:Hadoop分布式文件系统 Oozie:负责MapReduce作业调度 Hbase:Key-value数据库 Hive:构建在MapRudece之上的数据仓库软件包 Pig:Pig是架构在Hadoop之上的高级数据处理层。Pig Latin语言为编程人员提供了更直观的定制数据流的方法。 3 基础模型 基础模型 4 应用场合 ※庞大的数据量 ※较少或没有数据依赖 ※包含结构化和非结构化数据 ※适合大规模的并行处理 5 特点 复杂的版本管理,版本管理比较混乱,各种版本层出不穷,在使用的时候难以选择一个恰当的版本;

记一次hadoop伪分布式环境搭建(Linux)

こ雲淡風輕ζ 提交于 2020-01-27 21:57:35
1、准备工作 1.1 给虚拟机取个 hostname。 而且配置 hosts。如果要和win做联合开发的话,和win的hosts文件,做一样的域名映射。 # 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 # ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168.241.128 master 1.2 做免密配置 [root@master opt]# ssh-keygen -t rsa [root@master opt]# ssh-copy-id -i ~/.ssh/id_rsa.pub root@master [root@master opt]# ssh root@master 1.3 安装 dk vim /etc/profile export JAVA_HOME=/usr/local/java/jdk1.8.0_221 export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar export PATH=$JAVA_HOME/bin:$PATH 2、hadoop 配置文件 hadoop-env.sh

Apache Spark

风流意气都作罢 提交于 2020-01-26 05:49:14
Apache Spark 一、概述 官方地址: http://spark.apache.org/ Lightning-fast unified analytics engine : 快如闪电的统一分析引擎 快如闪电: Spark基于内存式计算,分布式并行计算框架。不同于MapReduce框架,基于磁盘式计算,将Job粗粒度的分为MapTask、ReduceTask,并且必须通过网络进行数据交互。 Spark任务执行时,实际上会将一个复杂的科学计算划分一个个的Stage(阶段),每一个Stage都支持分布式的并行计算 Spark计算时,每一个Stage计算结果都可以进行缓存,可以非常容易的进行故障恢复和结果重用 统一: 集结了大数据处理的主流方案 批处理(RDD:代替MapReduce) 流处理(Streaming:代替Storm、Kafka Streaming) 机器学习(Machine Learing: 代替Mahout) 交互式查询(SQL:代替Hive) 图形计算(GraphX) 分析引擎:代替MapReduce 特点 速度: 相对于MapReduce的计算,效率极高。Spark将复杂的Job分解为若个Stage,每一个Stage都可以进行分布式并行计算,称为DAG(Directed Acyclic Graph)有向无环图,类似于Kafka Streaming

大数据之Hadoop环境搭建

好久不见. 提交于 2020-01-26 03:38:41
Hadoop由GNU / Linux平台及其版本支持。因此,我们必须安装一个Linux操作系统来设置Hadoop环境。如果您有除Linux以外的操作系统,您可以在其中安装Virtualbox软件,并在Virtualbox内部安装Linux。 安装前设置 在将Hadoop安装到Linux环境之前,我们需要使用ssh(Secure Shell)来设置Linux。按照以下步骤设置Linux环境。 创建用户 在开始时,建议为Hadoop创建一个单独的用户,以便将Hadoop文件系统与Unix文件系统隔离。按照以下步骤创建用户: 使用命令“su”打开根。 使用命令“useradd username”从root帐户创建用户。 现在您可以使用命令“su username”打开现有的用户帐户。 打开Linux终端并键入以下命令以创建用户。 $ su password: # useradd hadoop # passwd hadoop New passwd: Retype new passwd SSH设置和密钥生成 需要SSH设置在集群上执行不同的操作,如启动,停止,分布式守护程序shell操作。要对Hadoop的不同用户进行身份验证,需要为Hadoop用户提供公钥/私钥对,并与不同的用户共享。 以下命令用于使用SSH生成键值对。将公共密钥表单id_rsa.pub复制到authorized_keys

Hadoop环境搭建之本地运行模式

与世无争的帅哥 提交于 2020-01-25 15:59:14
一、hadoop本地运行模式介绍 默认的模式,无需运行任何守护进程,所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。 使用本地文件系统,而不是分布式文件系统。 Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。 用于对MapReduce程序的逻辑进行调试,确保程序的正确。 所谓默认模式,及安装完jdk及hadoop,配置好相应的环境,及本地模式配置完成。 二、hadoop本地运行模式环境搭建 2.1 创建虚拟机 在本文章中,hadoop的搭建是基于 VMware12 虚拟的 CentOS 6.8 系统,下面来讲解一下如何使用 VMware12 来虚拟一个 Centos 6.8 系统。 1、检查BIOS虚拟化支持 每台电脑进入BIOS的方式都不同,可以查看自己电脑型号,自行百度。 2、新建虚拟机 3、新建虚拟机向导 4、创建虚拟空白光盘 5、安装Linux系统对应的CentOS 64位 6、虚拟机命名和定位磁盘位置 7、处理器配置 虚拟机处理器数量可以根据自己的机器配置来定,点击电脑的属性即可查看。 8、设置内存 这里可以根据自己电脑内存的大小进行设置,我选择2G。 9、网络设置

kdc单机kerberos认证的hdfs开发环境

喜欢而已 提交于 2020-01-24 04:36:42
开发中需要测试kerberos认证的hdfs环境,方便模拟线上环境,hdfs单机很简单,但是加上kerberos,一方面时配置复杂,另一方面时java程序连接认证容易出错,所以总结了快速搭建kerberos认证的hdfs环境,方便开发与测试 centos 6.10 minimal安装 先安装kerberos yum - y install krb5 - libs krb5 - server krb5 - workstation echo '192.168.127.131 myli' >> / etc / hosts # hostname,主机名使用ip,不用 127 echo '192.168.127.131 kerberos.example.com' >> / etc / hosts kdb5_util create - r EXAMPLE . COM - s # 另一个终端 cat / dev / sda > / dev / urandom,往随机池写入,加快速度,新建密码 kadmin . local - q "addprinc admin/admin" # 管理员,新建密码 / etc / init . d / krb5kdc start / etc / init . d / kadmin start kadmin . local - q 'addprinc

配置高可用的Hadoop平台

做~自己de王妃 提交于 2020-01-22 16:08:56
1.概述   这篇博客是接着《高可用Hadoop平台》系列讲,本篇博客是为后面用 Hive 来做数据统计做准备的,介绍如何在 Hadoop HA 平台下集成高可用的 Hive 工具,下面我打算分以下流程来赘述: 环境准备 集成并配置 Hive 工具 使用 Java API 开发 Hive 代码   下面开始进行环境准备。 2.环境准备   Hive版本:《 Hive-0.14 》   HAProxy版本:《 HAProxy-1.5.11 》    注:前提是 Hadoop 的集群已经搭建完成,若还没用完成集群搭建,可以参考《 配置高可用的Hadoop平台 》   需要安装的工具,我们已经准备好了,接下来给出 Hive 搭建的结构图,如下图所示:   这里由于集群资源有限,所以将 HAProxy1 配置在 NNA 节点,HAProxy2 配置在 NNS 节点,Hive1,Hive2,Hive3分别配置在 DN1,DN2,DN3 节点。如下表所示: 服务器 角色 NNA HAProxy1 NNS  HAProxy2 DN1 Hive1 DN2  Hive2 DN3 Hive3   我们将下载好的 Hive 安装包和 HAProxy 安装包用 scp 命令,参考上表格分别分发到对应的节点。    注:hive 指定的 HDFS 必须是相同的,否则,统计的数据源不同,那么统计是没有意义的。

【Spark SQL】1、初探大数据及Hadoop的学习

China☆狼群 提交于 2020-01-16 19:41:59
初探大数据 centos 6.4 CDH5.7.0 系列http://archive.cloudera.com/cdh5/cdh/5/ 生产或测试环境选择对应CDH版本时,一定要采用尾号一样的版本 OOPTB apache-maven-3.3.9-bin.tar.gz Jdk-7u51-linux-x64.tar.gz Zeppelin-0.7.1-bin.tgz Hive-1.1.0-cdh5.7.0.tar.gz hadoop-2.6.0-cdh5.7.0.tar.gz Mysql-connector-java.5.1.27.bin.jar Scala-2.11.8.tar.gz spark-2.1.0-bin-2.6.0-cdh5.7.0 大数据概述 数据量 速度 多样性、复杂性 基于高度分析的新价值 Hadoop 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 Apache顶级项目 访问网站 projetName.apache.org 包括 HSFS/YARN/MapReduce 狭义Hadoop VS 广义Hadoop 狭义的Hadoop:是一个适合大数据分布式存储HDFS、分布式计算MapReduce和资源调度YARN的平台 广义的Hadoop:指的是Hadoop生态系统