Apache Ambari

HDP 大数据平台搭建

不打扰是莪最后的温柔 提交于 2021-02-18 03:56:17
一、概述 Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应、管理和监控的开源工具,Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。提供Web UI进行可视化的集群管理,简化了大数据平台的安装、使用难度。 二、安装部署 2.1 主机规划 | 序号 | IP地址 | 主机名 |系统版本| | -------- | -------- | -------- | | 1 | 172.20.2.222 | ambari-server |centos7.3 | 2 | 172.20.2.203 | hadoop-1 |centos7.3 | 3 | 172.20.2.204 | hadoop-2 |centos7.3 | 4 | 172.20.2.205 | hadoop-3 |centos7.3 2.2 部署 2.2.1 基础环境部署 a.修改主机名配置hosts systemctl stop firewalld hostnamectl set-hostname ambari-server #更改个主机名 sed -i 's/SELINUX=enforcing/SELINUX=disable/g' /etc/selinux/config

Ambari 2.7.3.0安装新组件

两盒软妹~` 提交于 2021-02-12 06:48:50
Ambari 2.7.3.0安装新组件和之前版本略有不同,本文将简述安装新组件的简单过程。 前提是大家已经安装好Ambari 2.7.3.0 这时候由于有一些组件没有添加,就需要安装新的组件。 首先我们登录到Ambari中。 然后选择左下角 Stack and Versions 在这个页面可以看到我们安装过的服务,我们选择superset Add Service添加服务 这里会显示之前安装的服务,之前安装的是修改不了的,我们选择next进行下一步 这里选择安装在哪台机器,可以根据机器的具体情况进行分配 这一步也是不用修改的: 设置一些属性,主要是密码,密码是必须设置的,设置完才能通过,其他的一些设置可以稍后修改 选择部署,开始进行安装部署 耐心等待安装: 可以点进去查看日志,分为正常的log和错误log,如果报错注意查看错误原因 等待安装成功,如果失败查看log进行解决 完成,提示重启组件 可以看到已经安装并启动成功了,可以进入查看 更多实时计算,Flink,Kafka等相关技术博文,欢迎关注实时流式计算 本文分享自微信公众号 - 实时流式计算(RealtimeBigdata)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina

IBM developer:Kafka ACLs

断了今生、忘了曾经 提交于 2021-02-09 05:25:25
Overview In Apache Kafka, the security feature is supported from version 0.9. When Kerberos is enabled, we need to have the authorization to access Kafka resources. In this blog, you will learn how to add authorization to Kafka resources using Kafka console ACL scripts. In addition, when SSL is enabled in Kafka, ACLs (access control list) can be enabled to authorize access to Kafka resources. Kafka ACLs are defined in the general format of “Principal P is [Allowed/Denied] Operation O From Host H On Resource R”. Kafka resources that can be protected with ACLS are: Topic Consumer group Cluster

基于Docker的大数据开发环境

折月煮酒 提交于 2021-02-06 20:37:25
大数据开发对运行环境和数据的依赖比较重,比如开发Spark应用,往往会依赖Hive,但本地开发环境是没有Hive的,所以需要在本地和服务器之间拷贝代码,效率不高,我认为用Docker在本地搭建一套单机的大数据集群,然后将代码拷贝到容器里进行测试,可以改善这种情况。我自己对这个思路做过探索:https://github.com/iamabug/BigDataParty,这个镜像安装了Hadoop、Hive、Spark等组件,基本可以满足需求,但是也有一些问题存在,比如有时需要对配置进行调整来保持和生产环境的一致性,虽然可以做,但工作量也不少。 其实,CDH和HDP都提供了类似的单机镜像,其中HDP中组件的版本比较新,并且和公司的技术栈一致,因此来探索一下,如果体验更好的话,以后就用它来进行相关的开发了。 CDH镜像相关:https://hub.docker.com/r/cloudera/quickstart/ HDP镜像相关:https://www.cloudera.com/tutorials/sandbox-deployment-and-install-guide/3.html Sandbox获取 系统要求 安装Docker 17.09 或更新的版本 对于Windows和Mac,Docker需要配置10G以上的内存 脚本下载与执行 可以在浏览器里访问https://www

基于【CentOS-7+ Ambari 2.7.0 + HDP 3.0】HAWQ数据仓库 使用之 gpfdist协议

旧时模样 提交于 2020-12-06 03:03:32
一、HAWQ基本安装自带gpfdist协议 gpfdist是HAWQ支持的外部表访问协议之一,这是hawq自带的一个简单的集成http服务命令。 在我的前述安装hawq之后,gpfdist命令位于hawq的bin目录之中。/opt/gpadmin/apache-hawq/bin/gpfdist gpfdist使用说明很简单,且看: [root@ep-bd01 ~]# /opt/gpadmin/apache-hawq/bin/gpfdist -- help gpfdist -- file distribution web server usage: gpfdist [ --ssl <certificates_directory>] [-d <directory>] [-p <http(s)_port>] [-l <log_file>] [-t <timeout>] [-v | -V] [-m <maxlen>][-c file ] gpfdist [ -? | --help] | -- version -?, -- help : print this screen - v : verbose mode -V : more verbose -p port : port to serve HTTP(S), default is 8080 -d dir : serve files

从零自学Hadoop(06):集群搭建

风流意气都作罢 提交于 2020-10-29 03:04:01
阅读目录 序 集群搭建 监控 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作。 文章是哥(mephisto)写的, SourceLink 序   上一篇,我们把Ambari的环境基本搭建好了,那么我们趁热打铁,打造我们的第一个HDP集群,这样,离我们下一步就越来越近了,在安装中还是会碰到很多想不到的情况的。所以,注意分析,找到解决方法很重要。   对了,这里我们还是多搭建了一个机器H34,怕集群机器不够。大家按照原来的步骤在做一个吧。 集群搭建 一:登陆   使用我们设置的Ambari服务器登陆,还记得么,在H30上面。 二:主界面   我们看到圈起来的地方就是我们要搭建集群的地方。 三:新建集群   这里,我们使用MyCluster作为我们第一个集群的名称。 四:选择HDP版本和源   我们当然选择最新的HDP2.3,玩就玩最新的,要不老是在别人后面,多不好啊。   这里我们得设置HDP和 HDP-UTILS的源,我们已经搭建好了仓库,可以直接使用本地源了。 五:将SSH私有Key放到本机   由于是页面登陆,当然如果H30开启了GUI界面,是可以不用这个操作的。   目前我们使用的没有GUI界面的Linux,所以,得在浏览器使用的机器上能使用的到ssh private key。   过程很简单,就不上图了。 六

【专栏兴趣群】大数据安全运维实战宝典

泄露秘密 提交于 2020-08-19 04:13:34
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。数据的确是公司最最重要的核心资产。随着业务的迅速发展,交易数据呈几何级增加,随之而来的是系统的不堪重负。业务部门、领导、甚至是集团老总整天嚷嚷的要报表、要分析、要提升竞争力。而研发部门能做的唯一事情就是执行一条一条复杂到自己都难以想象的SQL语句,紧接着系统开始罢工,内存溢出,宕机........简直就是噩梦。OMG!please release me!!! 俗话说,工欲善其事,必先利其器。 本专栏内容从大数据运维角度出发,指导安装大数据平台,组件调优及默认配置修改去解决内存溢出,服务器宕机,kudu超时等业务无法处理的问题。 专栏内容架构分为: 总共分为20篇文章,其中1篇理论介绍大数据平台,12篇CDH实践,7篇ambari实践。 CDH基础入门(1篇)+性能调优(4篇)+安全实战(7篇) Ambari基础入门(1篇)+性能调优(1篇)+安全实战(5篇) 扫码回复【大数据运维】,进专栏兴趣群 来源: oschina 链接: https://my.oschina.net/u/4419312/blog/4313500

Ranger 简介与安装

孤者浪人 提交于 2020-08-18 01:24:00
目录 一、Ranger是什么 1、Ranger介绍 2、Ranger模块 二、基于Ambari安装Ranger 一、Ranger是什么 1、Ranger介绍 Ranger是Hadoop平台的集中式安全管理框架,能够为hadoop平台组件提供细粒度的访问控制。通过Ranger, Hadoop管理员能够轻松地管理各种安全策略,包括:访问文件/文件夹,数据库,Hive表,列, Hbase, YARN等。此外,Ranger还能进行审计管理,以及策略分析,从而为Hadoop环境的深层次分析提供支持。 目前,Ranger支持对以下的Hadoop组件:HDFS, HBase, Hive, Yarn, Knox, Storm, Solr, Kafka。 HDP整合kerberos以及ranger进行细粒度权限控制 : https://mp.csdn.net/console/editor/html/106575381 2、Ranger模块 Apache Ranger目前是Apache下的顶级项目,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理。用户可以通过Ranager实现对集群中数据的安全访问。 Ranger由三个模块组成: Ranger portal: 提供给用户进行安全管理的界面 Ranger plugin: 嵌入在需要安全控制的组件进程中,提供两种功能: (1

ambari集群Kerberos服务异常

假装没事ソ 提交于 2020-08-16 14:44:49
异常现象 组件列表里面没有kerberos组件,安全认证页面显示已经开启了Kerberos服务。主机组件列表里面也没有Kerberos-client组件。kdc服务正常。怀疑有人禁用Kerberos服务失败了,但是没有查到日志记录。 问题排查 ambari.cluster表: ambari根据clusters表中security_type的状态(KERBEROS/NONE)显示是否开启Kerberos服务了 如果为NONE:则下面的页面会显示:启用Kerberos安全 如果为KERBERO:则显示如下: ambari.clusterservices表: 集群如果开启Kerberos认证,则clusterservices表中会有上图所示的一条记录,否则没有关于Kerberos的记录。 修复: 查看出问题的集群,发现此表中没有关于Kerberos的记录,因此插入一条记录: insert into clusterservices (service_name,cluster_id,service_enabled) values ('KERBEROS',2,0); 其中cluster_id和service_enabled的值和正常服务的值保持一致即可。 ambari.servicedesiredstate表: 集群如果开启Kerberos认证

ambari大数据集群+HIVE安装配置

三世轮回 提交于 2020-08-13 23:03:43
源码安装对于新手来说往往费时费力,搭建好hadoop环境之后,再搭建hadoop生态中其他工具就更具挑战;此外,搭建好之后对于生态工具的管理以及监控也是不小的挑战,因此ambari及CDH并应运而生。ambari及CDH的诞生极大简化了大数据集群的配置安装及监控管理。这篇文章以ambari大数据集群的安装配置为例,记录整个过程。 PS: 本文中用到的安装包均可从百度网盘获取: https://pan.baidu.com/s/1povy3VrUgNyd2ezWHbxFKA 提取密码: ufqd 前提假设: 1. 基础系统环境Centos 7.x,预备3台物理机或虚拟机或docker容器 //由于ambari安装比源码更耗资源,建议每台主机内存不少于4G,如果要加装其他工具,建议分配更大 由于资源有限,本次示例以docker容器方式安装,分别规划了master(172.18.0.251), worker1(172.18.0.252), worker2(172.18.0.253)三个容器 容器快速入门可参考地址: https://blog.51cto.com/taoismli/category8.html 2. 每台主机(容器)已配置好JDK centos配置JDK可参考地址: https://blog.51cto.com/taoismli/1963896 3. 每台主机(容器