hadoop集群搭建

安装Apache Hadoop2.7.1教程

旧时模样 提交于 2020-01-25 08:08:24
教程环境 hadoop2.7.1 Ubutun16.06 JDK1.8 详细下载教程本教程暂不提供 添加用户 创建Hadoop用户(必不可少的,否则后面会因为权限问题导致无法搭建集群) 添加Hadoop用户 sudo useradd - m hadoop - s / bin / bash 设置新用户密码 sudo passwd hadoop 为新用户添加管理员权限 sudo adduser hadoop sudo 最后我们注销当前用户,切换到hadoop用户登录 更新apt 用 hadoop 用户登录后,我们先更新一下 apt,后续我们使用 apt 安装软件,如果没更新可能有一些软件安装不了。按 ctrl+alt+t 打开终端窗口,执行如下命令: sudo apt - get update 若出现如下 “Hash校验和不符” 的提示,可通过更改软件源来解决。若没有该问题,则不需要更改。从软件源下载某些软件的过程中,可能由于网络方面的原因出现没法下载的情况,那么建议更改软件源。在学习Hadoop过程中,即使出现“Hash校验和不符”的提示,也不会影响Hadoop的安装。 后续需要更改一些配置文件,我比较喜欢用的是 vim(vi增强版,基本用法相同),建议安装一下(如果你实在还不会用 vi/vim 的,请将后面用到 vim 的地方改为 gedit,这样可以使用文本编辑器进行修改

搭建Kylin集群

回眸只為那壹抹淺笑 提交于 2020-01-24 14:45:00
[hadoop@hadoop001 software]$ tar -zxvf apache-kylin-2.6.4-bin.tar.gz -C ../app/ [hadoop@hadoop001 app]$ ln -s apache-kylin-2.6.4-bin kylin 准备Spark包 首先,在Ambari中安装Spark。 [hadoop@hadoop001 app]$ wget http://archive.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz [hadoop@hadoop001 app]$ tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz 三台机器都执行下面命令,这里只以hadoop002为例 [hadoop@hadoop002 app]$ sudo cp spark-2.3.2-bin-hadoop2.7/jars/xercesImpl-2.9.1.jar /usr/hdp/current/spark2-client/jars/ [hadoop@hadoop002 app]$ sudo cp spark-2.3.2-bin-hadoop2.7/jars/commons-configuration-1.6.jar /usr/hdp/current

五、kafka_2.9.2-0.8.1集群搭建

半腔热情 提交于 2020-01-23 23:26:44
①为什么要搭建kafka集群 主要是在项目后期,要做一个实时计算的模块,实时数据都是从kafka集群里面读取,kafka就是一个分布式的消息队列,kafka搭建的底层基于zookeeper,zookeeper在 四、zookeeper-3.4.5-cdh5.3.6集群搭建 已经搭建好了。 ②安装scala2.11.4 1、利用WinSCP软件将scala-2.11.4.tgz文件拷贝到虚拟机sparkproject1的/usr/local/路径。 2、对scala-2.11.4.tgz进行解压缩,在虚拟机sparkproject1的local目录下输入:tar -zxvf scala-2.11.4.tgz 然后在local目录下输入:ll 删除scala-2.11.4.tgz文件,在local目录下输入:rm -rf scala-2.11.4.tgz 再输入:ll,发现只有scala-2.11.4文件夹,文件scala-2.11.4.tgz已经删除。 3、对scala目录进行重命名,在虚拟机sparkproject1的local目录下输入:mv scala-2.11.4 scala 然后输入:ll,进行检查。 4、配置scala相关环境变量 在虚拟机sparkproject1的local目录,输入:vi ~/.bashrc 输入键盘 i 键 ,插入内容: export SCALA

搭建Ambari集群

大城市里の小女人 提交于 2020-01-21 23:57:02
[root@hadoop001 ~]# visudo [root@hadoop001 ssh]# useradd hadoop SSH免密 [hadoop@hadoop001 ~]$ ssh-keygen [hadoop@hadoop001 ~]$ cd .ssh [hadoop@hadoop001 .ssh]$ pwd /home/hadoop/.ssh [hadoop@hadoop001 .ssh]$ cat id_rsa.pub >> authorized_keys [hadoop@hadoop001 .ssh]$ chmod 700 ~/.ssh [hadoop@hadoop001 .ssh]$ chmod 600 ~/.ssh/authorized_keys [hadoop@hadoop001 .ssh]$ ssh hadoop001 The authenticity of host 'hadoop001 (172.31.36.137)' can't be established. ECDSA key fingerprint is SHA256:AAM1VixV4qWn6aVj1liWEOFzmsYKTYxqOFKokwPIPwI. ECDSA key fingerprint is MD5:2d:1b:1d:d2:c2:32:34:ea:fe:ba:52:37:c4:a3

HBase 0.98 分布式集群安装详解

亡梦爱人 提交于 2020-01-19 20:36:22
概述 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 前言 这篇博客应该很早就发表了,只是当时环境搭建好了之后没有及时做笔记,后来又不想重新搭建,所以才拖到今天。还有就是这篇博客安装的是 Hbase-0.98 的版本,与之前说要安装 0.96 的说明不吻合,这里统一说明,之前的博客就不更改了。还有一点就是,本文的安装过程很顺,没有出现什么启动不了,或是运行异常的行为。如果你在安装的过程出现了一些不好的事情,那么你可能会在本文中找到一些蛛丝马迹,也可能一无所获。只是我希望你可以理解到,本文并非胡编乱邹。 版权说明 著作权归作者所有。 商业转载请联系作者获得授权,非商业转载请注明出处。 本文作者: Q-WHai 发表日期: 2016年6月8日 本文链接: http://blog.csdn.net/lemon_tree12138

【Spark SQL】1、初探大数据及Hadoop的学习

China☆狼群 提交于 2020-01-16 19:41:59
初探大数据 centos 6.4 CDH5.7.0 系列http://archive.cloudera.com/cdh5/cdh/5/ 生产或测试环境选择对应CDH版本时,一定要采用尾号一样的版本 OOPTB apache-maven-3.3.9-bin.tar.gz Jdk-7u51-linux-x64.tar.gz Zeppelin-0.7.1-bin.tgz Hive-1.1.0-cdh5.7.0.tar.gz hadoop-2.6.0-cdh5.7.0.tar.gz Mysql-connector-java.5.1.27.bin.jar Scala-2.11.8.tar.gz spark-2.1.0-bin-2.6.0-cdh5.7.0 大数据概述 数据量 速度 多样性、复杂性 基于高度分析的新价值 Hadoop 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 Apache顶级项目 访问网站 projetName.apache.org 包括 HSFS/YARN/MapReduce 狭义Hadoop VS 广义Hadoop 狭义的Hadoop:是一个适合大数据分布式存储HDFS、分布式计算MapReduce和资源调度YARN的平台 广义的Hadoop:指的是Hadoop生态系统

Spark完全分布式集群搭建【Spark2.4.4+Hadoop3.2.1】

我与影子孤独终老i 提交于 2020-01-16 08:36:48
一.安装Linux   需要:3台CentOS7虚拟机      注意:     虚拟机的网络设置为NAT模式,NAT模式可以在断网的情况下连接上虚拟机而桥架模式不行! 二.设置静态IP   跳转目录到:      修改IP设置:      备注:执行scp命令拷贝设置文件到另外两个节点,修改IP分别为192.168.136.8和192.168.136.9 三.安装JDK   参考我的博客: https://www.cnblogs.com/yszd/p/10140327.html 四.运行Spark预编译包中的实例   1.测试Scala代码实例     执行:      运行Scala版本计算Pi的代码实例结果:         表示运行成功!   2.测试python代码实例     执行:          运行python版本计算Pi的代码实例,注意,若要是遇到下面的异常:          表示没有指定ip,这是需要修改配置文件spark-env.sh,前往conf目录下执行          拷贝配置模板文件,并修改为spark-env.sh,执行          打开配置文件,添加,指定默认ip。          然后继续执行计算Pi代码命令:          结果如下:                表示执行成功! 五.本地体验Spark   1

用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(下)-搭建Hadoop集群

一世执手 提交于 2020-01-16 02:14:36
上篇: 用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(上)-快速上手Docker 上篇介绍了快速上手Docker部分,下面接着介绍搭建Hadoop集群部分。 六、搭建Hadoop伪分布模式 我们先用前面创建的这个容器来搭建Hadoop伪分布模式做测试,测试成功后再搭建完全分布式集群。 1.SSH 这个centos容器可以看做是一个非常精简的系统,很多功能没有,需要自己安装。 Hadoop需要SSH,但容器没有自带,需要我们安装。 ①安装SSH # yum -y install openssh-clients openssh-server ②生成3个key文件 # ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key一路回车 # ssh-keygen -t ecdsa -f /etc/ssh/ssh_host_ecdsa_key 一路回车 # ssh-keygen -t ed25519 -f /etc/ssh/ssh_host_ed25519_key 一路回车 ③启动sshd # /usr/sbin/sshd ④修改root密码 因为默认的密码不知道,我们重新设置一下。 # passwd root ⑤设置ssh免密登录到本机 # ssh-keygen一路回车 # ssh-copy-id localhost

HBase环境搭建随记

别等时光非礼了梦想. 提交于 2020-01-12 06:41:28
====软件版本==== jdk:jdk-8u77-linux-x64.tar.gz zookeeper:zookeeper-3.4.6.tar.gz hadoop:hadoop-2.7.4.tar.gz hbase:hbase-1.3.1-bin.tar.gz ====前提准备==== 3台vmware虚拟机(已配置无秘钥访问) 其中,/etc/hosts文件内容如下: ====安装jdk==== 上传安装包,解压缩,然后配置环境变量即可。 正常配置之后,在服务器任意路径执行java -version可以显示java版本。如下所示。 ====安装zookeeper==== 这里也不在过多描述,简单罗列一下配置文件。 配置文件:zoo.cfg 需要分别在3个节点的,dataDir路径下生成节点的myid。 启动并验证zookeeper是否正常 启动命令:/home/hadmin/zookeeper-3.4.6/bin/zkServer.sh start 查看状态:/home/hadmin/zookeeper-3.4.6/bin/zkServer.sh status 启动之后,3个节点的状态分别如下: ====安装hadoop==== 因为HBase的底层是基于Hadoop的hdfs的,所以在安装HBase之前,必须要安装Hadoop,并确保hdfs正常。

Eclipse开发MR环境搭建

不想你离开。 提交于 2020-01-11 04:48:13
1.jdk 环境配置 jdk安装后好后配置相关JAVA_HOME环境变量,并将bin目录配置到path 2. 下载hadoop-2.7.1.tar.gz 解压hadoop-2.7.1.tar.gz到 D:\XXXX\workspace\hadoop-2.7.1 下载地址:http://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/ 3. 下载hadoop2x-eclipse-plugin 百度下载hadoop2x-eclipse-plugin开发插件,如果下载的不好用,可以自己编译一个自己目前在用hadoop版本的插件。 自行编译插件可以参考地址: http://www.cnblogs.com/beststrive/p/8275932.html 4. 下载hadoop-common-2.7.1.bin.zip 解压hadoop-common-2.7.1.bin.zip并将hadoop.dll和winutils.exe文件分别放到D:\XXXX\workspace\hadoop-2.7.1\bin 和C:\Windows\System32目录下 5. 拷贝插件到eclipse插件目录下 hadoop-eclipse-plugin-2.6.0.jar拷贝至eclipse的plugins目录下,然后重启eclipse 6.