kylin

使用独立的HBase集群部署Apache Kylin

眉间皱痕 提交于 2019-11-30 12:52:56
介绍 ApacheKylin主要使用HBase来存储多维数据集数据。HBase集群的性能直接影响着Kylin的查询性能。在常见的场景中,HBase与mr/hive一起部署在一个HDFS集群上,这使得所使用的资源受到限制,mr作业会影响HBase的性能。这些问题可以通过独立的HBase集群来解决,ApacheKylin目前支持这种部署模式。 环境要求 要启用独立的HBase群集支持,请首先检查基本环境: 部署主集群和HBase集群,确保两个集群都正常工作 确保Kylin服务器可以使用具有完全限定路径的HDFS shell访问两个集群。 确保Kylin服务器可以将mr作业提交到主集群,并且可以使用hive shell访问数据仓库,确保hadoop和hive的配置指向主集群。 确保Kylin服务器可以使用hbase shell访问hbase集群,确保hbase的配置指向hbase集群。 确保主集群上的作业可以直接访问HBase集群 配置 更新kylin.properties中的config kylin.hbase.cluster.fs,其值为hbase cluster的名称节点地址,如hdfs://hbase-cluster-nn01.example.com:8020 请注意,该值应与hbase主节点上root.dir的namenode地址保持一致,以确保批量加载到hbase中。

Kylin系列(一)—— 入门

落花浮王杯 提交于 2019-11-29 17:37:57
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/w124374860/article/details/82464518 总目录 Kylin系列(一)—— 入门 Kylin系列(二)—— Cube 构造算法 总目录 前言 核心概念 数据仓库 传统数仓和大数据数仓的区别 OLAP和OLTP 维度和度量 维度的基数 事实表和维度表 星型模型 Kylin中维度表的设计 Cube和Cuboid Kylin的技术架构 Kylin的核心模块 REST Server 查询引擎(Query Engine) Routing 元数据管理工具 任务引擎(Cube Build Engine) Kylin Cube三种构造 博客参考 因为平常只会使用kylin而不知其原理,故写下此篇文章。文章不是自己原创,是看过很多资料,查过很多博客,有自己的理解,觉得精华的部分的一个集合。算是自己对Kylin学习完的一个总结和概括吧。文章最后有链接,需要请自取。 前言 企业中的查询大致可分为即席查询和定制查询两种。很多的OLAP引擎包括Hive、Presto、SparkSQL,虽然很大成都上能降低数据分析的难度,但是他们都只适用于即席查询的场景。但是随着数据量和计算复杂度的增长,响应时间是无法保证的

kylin从入门到实战:实际案例

流过昼夜 提交于 2019-11-29 17:37:31
kylin从入门到实战:实际案例 版权申明:转载请注明出处。 文章来源: http://bigdataer.net/?p=308 排版乱?请移步 原文 获得更好的阅读体验 前面两篇文章已经介绍了kylin的相关概念以及cube的一些原理,这篇文章将从一个实际的案例入手,介绍如何在kylin平台上创建一个多维分析项目。 1.创建project 进入kylin操作界面,如果没有project可以创建,kylin里面可以创建多个project,有效的把各种业务数据分析隔离开来。如图: 如下,填写project name,description可以不填 然后submit 提交,project创建成功。 2.添加数据源 点击DataSource选项卡->Load Hive Table 填写hive表名,前面加上库名 然后点击sync,导入数据源成功,可以看到如下信息: 3.创建model 添加model name然后 next 选择刚才添加到数据源中的事实表,如果有Lookup Table也可添加,然后next 选择需要的维度 选择需要的指标 相关设置 partition date colume表示分区字段,选择hive表中按时间分区的字段。然后从date format中选择不同的时间格式。最下面的filter可以添加where条件对数据源中的数据做过滤。 至此,model创建完成。 4

在Ubuntu Kylin下安装JDK1.8

邮差的信 提交于 2019-11-29 17:36:22
在Ubuntu Kylin下安装JDK1.8,参考的地址是:http://jingyan.baidu.com/article/647f0115bb26817f2048a871.html,除了参考它之外,步骤如下: 注:我是将jdk放置在/opt/duan/目录下 以下1~6步骤都是普通用户下操作的 1、先下载JDK for linux,具体下载过程之类的就不说了。 2、解压并将该jdk拷贝到/opt/duan目录下: tar zxvf jdk1.8...-linux-64...tar.gz -C /opt/duan 3、将shell当前目录切换到/opt/duan下,修改jdk文件夹的名称: mv jdk1.8.0_05 jdk1.8 4、gedit /home/duan/.bashrc (注意,duan是我的用户名) 5、将下图所示的内容写入该文件中: 6、5步骤之后保存该文件,关闭该文件,之后在shell中输入java -version就可以看到该jdk的版本了。 注意:上面的步骤所做的操作,虽然安装了JDK,但是只能由duan这个用户看到该jdk,好像其他用户看不到,即使是root用户好像也看不到jdk(可以通过这个方式查看: 在root用户下,shell中输入java -version看看是否有结果出现)。 下面,在root用户下安装JDK: 1、切换到root用户下。 2

Kylin

风流意气都作罢 提交于 2019-11-28 08:17:14
为什么需要Kylin? Hadoop帮助我们解决了海量数据的存储。 早期使用Hadoop的MapReduce计算模型,太慢了,只能做离线计算,无法做实时计算与迭代式计算。 Spark应运而生,并带动了Scala语言的发展,Spark的MapReduce计算模型比Hadoop的MapReduce计算模型性能提升了数十倍。 在现今的企业发展中,数据的增量是每日以百MB、G为单位的增长,面对如此之大的规模性数据增长,及运营成本、硬件成本、响应速度等各方面影响下,Spark也够呛。 在这种情况下,企业查询一般分为即席查询和定制查询。 即席查询: Hive、SparkSQL等OLAP引擎,虽然在一定程度上降低了数据分析的难度,但他们只用于即席查询的场景, 优点 就是用户根据自己的需求,自定义、灵活的选择查询条件,与普通查询最大的区别在于普通查询时根据应用定制的开发查询条件,但 随着数据量和计算复杂度的增长,响应数据无法得到保证 。 实时查询: 多数情况下是对用户的操作做出实时反应,Hive等查询引擎很难满足实时查询,一般只能对数据库中的数据进行提取计算,然后 将结果存入MySQL等关系型数据库 ,最后提供给用户进行查询,随着后面海量数据的递增, 这种方式的代价很大 。 Kylin不同于大规模并行处理的Hive等架构,Kylin是 预计算 的模式,我们提前定义好查询的维度

Apache Kylin在美团点评的应用

♀尐吖头ヾ 提交于 2019-11-27 23:54:39
本文原载自大数据杂谈微信公众号。 感谢美团点评工程师高大月撰文并授权转载。 高大月,美团点评工程师,Apache Kylin PMC成员,目前主要在美团点评数据平台负责OLAP查询引擎的建设。 背景 美团点评的OLAP需求大体分为两类: 即席查询:指用户通过手写SQL来完成一些临时的数据分析需求。这类需求的SQL形式多变、逻辑复杂,对响应时间没有严格的要求。 固化查询:指对一些固化下来的取数、看数的需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类需求的SQL有固定的模式,对响应时间有比较高的要求 。 我们针对即席查询提供了Hive和Presto两个引擎。而固化查询由于需要秒级响应,很长一段时间都是通过先在数仓对数据做预聚合,再将聚合表导入MySQL提供查询实现的。但是随着公司业务数据量和复杂度的不断提升,从2015年开始,这个方案出现了三个比较突出的问题: 随着维度的不断增加,在数仓中维护各种维度组合的聚合表的成本越来越高,数据开发效率明显下降; 数据量超过千万行后,MySQL的导入和查询变得非常慢,经常把MySQL搞崩,DBA的抱怨很大; 由于大数据平台缺乏更高效率的查询引擎,查询需求都跑在Hive/Presto上,导致集群的计算压力大,跟不上业务需求的增长。 为了解决这些痛点,我们在2015年末开始调研更高效率的OLAP引擎,寻找固化查询场景的解决方案。

Kylin 架构模块简介

痞子三分冷 提交于 2019-11-27 23:38:33
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 来源: https://www.cnblogs.com/xibuhaohao/p/11380918.html

Kylin 2.0 Spark Cubing 优化改进

若如初见. 提交于 2019-11-27 16:07:53
Kylin 2.0 引入了Spark Cubing beta版本,本文主要介绍我是如何让 Spark Cubing 支持 启用Kerberos的HBase集群,再介绍下Spark Cubing的性能测试结果和适用场景。 Spark Cubing 简介 在简介Spark Cubing之前,我简介下MapReduce Batch Cubing。所谓的MapReduce Batch Cubing就是利用MapReduce 计算引擎 批量计算Cube,其输入是Hive表,输出是HBase的KeyValue,整个构建过程主要包含以下6步: 建立Hive的大宽表; (MapReduce计算) 对需要字典编码的列计算列基数; (MapReduce计算) 构建字典; (JobServer计算 or MapReduce计算) 分层构建Cuboid; (MapReduce计算) 将Cuboid转为HBase的KeyValue结构(HFile); (MapReduce计算) 元数据更新和垃圾回收。 详细的Cube生成过程可以参考 Apache Kylin Cube 构建原理 。 而Kylin 2.0的Spark Cubing就是在Cube构建的第4步替换掉MapReduce。 如下图,就是将5个MR job转换为1个Spark job: (注: 以下两个图片引自 Apache Kylin 官网的blog

Apache Kylin的架构特性

旧巷老猫 提交于 2019-11-27 07:04:44
  不多说,直接上干货! http://kylin.apache.org/cn/ 可扩展的超快OLAP引擎,提供标准SQL查询接口   支持单机或集群部署,为减少在Hadoop上百亿规模数据查询延迟而设计;   提供标准SQL接口,满足Hadoop之上的大部分分析查询需求。 交互式查询能力,多维立方体(MOLAP Cube)   用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体。 与BI工具及其他应用整合   提供JDBC及ODBC驱动,与BI工具整合。 其他特性   压缩与编码;   增量更新;   利用HBase Coprocessor;   基于HyperLogLog的Dinstinc Count近似算法;   友好的web界面以管理,监控和使用立方体;   项目及立方体级别的访问控制安全;   支持LDAP; 来源: http://www.cnblogs.com/zlslch/p/7404623.html