Apache Ambari

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

岁酱吖の 提交于 2020-08-09 05:51:46
​ 本章我们开始正式搭建大数据环境,目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境,使用原生的方式搭建Flink,Druid,Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式,共同完成大数据环境的安装。 Ambari搭建底层大数据环境 Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是顶级的hadoop管理工具之一。 目前Ambari的版本已经更新到2.7,支持的组件也越来越丰富。 Hadoop的发行版本有很多,有华为发行版,Intel发行版,Cloudera发行版(CDH),MapR版本,以及HortonWorks版本等。所有发行版都是基于Apache Hadoop衍生出来的,产生这些版本的原因,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布和销售。 收费版本: 收费版本一般都会由新的特性

Spark无法读取hive 3.x的表数据

牧云@^-^@ 提交于 2020-07-29 03:53:26
通过Ambari2.7.3安装HDP3.1.0成功之后,通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据,准确来说是内表的数据。 原因 hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark目前还不支持hive的ACID功能,因此无法读取ACID表的数据. 请看:https://issues.apache.org/jira/browse/SPARK-15348 解决办法 修改以下参数让新建的表默认不是acid表。 hive.strict.managed.tables= false hive.create. as .insert.only= false metastore.create. as .acid= false 来源: oschina 链接: https://my.oschina.net/u/4346988/blog/4399186

Why Ambari is setting the security protocol of the kafka to PLAINTEXTSASL instead of SASL_PLAINTEXT?

隐身守侯 提交于 2020-05-08 05:50:07
首页 / Data Ingestion & Streaming / Why Ambari is setting the security protocol of the kafka to PLAINTEXTSASL instead of SASL_PLAINTEXT? 个问题 ,截止 Param NC 2017年02月26日 08:36 kerberos Kafka Hi All , During Kerboraizing the kafka using the Ambari , it is setting the kafka security protocol to PLAINTEXTSASL instead of SASL_PLAINTEXT, but everywhere in the document is it mentioned that it must be SASL_PLAINTEXT , I have few questions regarding this . 1. Why Ambari setting the security protocol to PLAINTEXTSASL , is it a bug ? 2. Even though we are able to produce and consume the messages from program

基于【CentOS-7+ Ambari 2.7.0 + HDP 3.0】搭建HAWQ数据仓库——安装配置OPEN-SSH,设置主机节点之间免密互访

霸气de小男生 提交于 2020-04-25 07:52:10
配置root用户免密互访(为了方便,各台系统中使用统一的证书文件) 一、安装Open-SSH 1,查询系统中是否安装了openssh [root@]# opm -qa | grep ssh 如已安装,则列出下面类似的软件包 openssh-server- 7 .4p1- 16 .el7.x86_64 openssh - 7 .4p1- 16 .el7.x86_64 libssh2 - 1.4 . 3 - 10 .el7_2. 1 .x86_64 openssh -clients- 7 .4p1- 16 .el7.x86_64 如果没有列出openssh,则安装 [root@]# yum install openssh openssh-clients openssh-server- 7 -y 二,生成证书文件,或上传现有的证书,配置免密访问。 1,生成证书文件: 进入root用户ssh目录 [root@]# cd /root/. ssh ssh-keygen生成证书: ssh-keygen -t rsa -f id_rsa 注:本人是集群内各个主机节点都使用统一的证书文件,上传本地保存的证书文件id_rsa及id_rsa.pub 2,添加公钥到授权文件中 [root@]# cat hadoop_ssh_rsakey.pub >> authorized_keys 3,添加公钥到其他节点

Ambari2.7.3.0安装

China☆狼群 提交于 2020-03-12 13:15:43
[root@node02 yum.repos.d]# ambari-server setup Using python /usr/bin/python Setup ambari-server Checking SELinux... SELinux status is 'disabled' Customize user account for ambari-server daemon [y/n] (n)? y Enter user account for ambari-server daemon (centos): Adjusting ambari-server permissions and ownership... Checking firewall status... Checking JDK... [1] Oracle JDK 1.8 + Java Cryptography Extension (JCE) Policy Files 8 [2] Custom JDK ============================================================================== Enter choice (1): 1 To download the Oracle JDK and the Java Cryptography

HBase二次开发之搭建HBase调试环境,如何远程debug HBase源代码

倖福魔咒の 提交于 2020-02-27 20:14:22
版本 HDP:3.0.1.0 HBase:2.0.0 一、前言 之前的文章也提到过,最近工作中需要对HBase进行二次开发(参照HBase的AES加密方法,为HBase增加SMS4数据加密类型)。研究了两天,终于将开发流程想清楚并搭建好了debug环境,所以就迫不及待地想写篇文章分享给大家。 <!--more--> 二、思路 首先看到这个需求,肯定是需要先实现HBase配置AES加密《 HBase配置AES加密 》,或者还可以再继续了解实现SMS4加密算法《 Java版SMS4加密解密算法 》。等到这些都完成之后,就需要想办法实现HBase的SMS4数据加密了。这里我们要养成一种思路,那就是看官网。根据参考 官网 ,只得到如下信息: 需要实现 org.apache.hadoop.hbase.io.crypto.CipherProvider 类,所以先要搞清楚这个类在哪个jar包里面。最后,在 /usr/hdp/3.0.1.0-187/hbase/lib/ 目录下的 hbase-common-2.0.0.3.0.1.0-187.jar 包里面发现了这个类。 接着就想,怎么才能二次开发这个jar包呢?于是先使用 Java Decompiler 工具( 文末有获取方式 ),反编译该jar包,看了看AES加密模块的代码,发现必须要debug相关代码,了解其流程

调试 ambari-server 总结

爱⌒轻易说出口 提交于 2020-02-27 15:36:27
刚开始debug ambari-server的时候,很多逻辑都是第一次接触。其中有很多知识点还是记录一下的好,做个备忘。这些知识点对于自定义api的开发还是很有作用的。 1. api的子href的最后一个字符串如何定义?例如,指定一个id? 解答: ambari 2.6 编辑key_properties.json,将当前资源类型与含有id的value相映射。 举例: <!--more--> ambari 2.7 路径:org/apache/ambari/server/controller/internal/RackResourceProvider.java public static final String RACK_ID_PROPERTY_ID = PropertyHelper.getPropertyId("rack", "rack_id"); public static final String RACK_NAME_PROPERTY_ID = PropertyHelper.getPropertyId("rack", "rack_name"); public static final String RACK_HEIGHT_PROPERTY_ID = PropertyHelper.getPropertyId("rack", "rack_height"); public

Ambari 集成 Apache Kylin 服务(适配于 2.6.x / 2.7.x 版本)

試著忘記壹切 提交于 2020-02-26 22:05:40
一、前言 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 如果需要将Kylin服务受控于Ambari管控,那就需要集成服务了。 二、集成服务 <!--more--> 关于ambari-Kylin的Python脚本已上传至github,具体地址参见: 传送门 使用该项目的前提条件 ambari主节点 上安装 httpd 服务并开启, 将Kylin和Nginx的源码包 放到 /var/www/html/kylin 目录下。(由于源码包太大, github 上传不了,请到文章底部关注 我的微信公众号 ,回复 ambari-kylin 获取云盘链接。也感谢您的关注!) 在 ambari 集群 各主机 已安装 wget 命令 适配 CentOS-7 64 位系统, CentOS-6 64 位系统(使用 CentOS-6 系统,启动 nginx 时可能会报错, 下文会粘出解决方法 ),其他系统没有测试 适配于 ambari2.6 + hdp 2.6.4.0-91 ,【ambari2.7(待适配)】 版本说明: Kylin 2.5.1 + Nginx 1.8.1 部署步骤:

Ambari2.7.3.0添加组件

我只是一个虾纸丫 提交于 2019-12-26 09:29:30
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Ambari 2.7.3.0安装新组件和之前版本略有不同,本文将简述安装新组件的简单过程。 前提是大家已经安装好Ambari 2.7.3.0 这时候由于有一些组件没有添加,就需要安装新的组件。 首先我们登录到Ambari中。 然后选择左下角 Stack and Versions 在这个页面可以看到我们安装过的服务,我们选择superset Add Service添加服务 这里会显示之前安装的服务,之前安装的是修改不了的,我们选择next进行下一步 这里选择安装在哪台机器,可以根据机器的具体情况进行分配 这一步也是不用修改的: 设置一些属性,主要是密码,密码是必须设置的,设置完才能通过,其他的一些设置可以稍后修改 选择部署,开始进行安装部署 耐心等待安装: 可以点进去查看日志,分为正常的log和错误log,如果报错注意查看错误原因 等待安装成功,如果失败查看log进行解决 完成,提示重启组件 可以看到已经安装并启动成功了,可以进入查看 更多实时计算,Flink,Kafka等相关技术博文,欢迎关注实时流式计算 来源: oschina 链接: https://my.oschina.net/u/4187920/blog/3147491

Consumer is not subscribed to any topics

可紊 提交于 2019-12-04 20:58:33
产生该问题的原因主要是 zookeeper 中存在旧版本的 kafka-connect topic 信息,导致新版本的 kafka-connect 启动异常: ERROR Unexpected exception in Thread[KafkaBasedLog Work Thread - connect-configs,5,main] (org.apache.kafka.connect.util.KafkaBasedLog:334) java.lang.IllegalStateException: Consumer is not subscribed to any topics or assigned any partitions at org.apache.kafka.clients.consumer.KafkaConsumer.poll(KafkaConsumer.java:1109) at org.apache.kafka.connect.util.KafkaBasedLog.poll(KafkaBasedLog.java:256) at org.apache.kafka.connect.util.KafkaBasedLog.access$500(KafkaBasedLog.java:69) at org.apache.kafka.connect.util