kylin

kylin cube 构建过程

ぐ巨炮叔叔 提交于 2019-12-19 04:50:17
本文是对 http://kylin.apache.org/docs20/howto/howto_optimize_build.html 的翻译,以便阅读。 1. 创建 Hive 中间表(Create Intermediate Flat Hive Table) 这个过程会把 cube 中用到的所有 Hive 表(包括 look at 的表)汇聚成一张表。如果 Cube 是分区的,kylin 会增加时间条件以获取相应的数据。此过程的输出大致如下: hive -e "USE default; DROP TABLE IF EXISTS kylin_intermediate_airline_cube_v3610f668a3cdb437e8373c034430f6c34; CREATE EXTERNAL TABLE IF NOT EXISTS kylin_intermediate_airline_cube_v3610f668a3cdb437e8373c034430f6c34 (AIRLINE_FLIGHTDATE date,AIRLINE_YEAR int,AIRLINE_QUARTER int,...,AIRLINE_ARRDELAYMINUTES int) STORED AS SEQUENCEFILE LOCATION 'hdfs:///kylin/kylin200instance

Apache kylin 入门

我怕爱的太早我们不能终老 提交于 2019-12-18 10:57:57
本篇文章就概念、工作机制、数据备份、优势与不足4个方面详细介绍了Apache Kylin。 Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎。它通过 ANSI-SQL 接口,提供基于 hadoop 的超大数据集(TB-PB 级)的多维分析(OLAP)功能。 2. kylin 可实现超大数据集上的亚秒级(sub-second latency)查询。 1)确定 hadoop 上一个星型模式的数据集。 2)构建数据立方体 cube。 3)可通过 ODBC, JDBC,RESTful API 等接口在亚秒级的延迟内查询相 Apache Kylin 核心概念 1. 表(Table ):表定义在 hive 中,是数据立方体(Data cube)的数据源,在 build cube 之前,必须同步在 kylin 中。 2. 模型(model): 模型描述了一个星型模式的数据结构,它定义了一个事实表(Fact Table)和多个查找表(Lookup Table)的连接和过滤关系。 3. 立方体(Cube):它定义了使用的模型、模型中的表的维度(dimension)、度量(measure , 一般指聚合函数,如:sum、count、average 等)、如何对段分区( segments partition)、合并段(segments auto

一文读懂Apache Kylin(麒麟)

荒凉一梦 提交于 2019-12-16 00:10:58
“麒麟出没,必有祥瑞。”                               —— 中国古谚语 Kylin思维导图 前言 随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临。但是海量数据的收集只是大数据技术的第一步,如何让数据产生价值才是大数据领域的终极目标。Hadoop的出现解决了数据存储问题,但如何对海量数据进行OLAP查询,却一直令人十分头疼。 企业中的查询大致可分为即席查询和定制查询两种。之前出现的很多OLAP引擎,包括Hive、Presto、SparkSQL等,虽然在很大程度上降低了数据分析的难度,但它们都只适用于即席查询的场景。它们的优点是查询灵活,但是随着数据量和计算复杂度的增长,响应时间不能得到保证。而定制查询多数情况下是对用户的操作做出实时反应,Hive等查询引擎动辄数分钟甚至数十分钟的响应时间显然是不能满足需求的。在很长一段时间里,企业只能对数据仓库中的数据进行提前计算,再将算好后的结果存储在MySQL等关系型数据库中,再提供给用户进行查询。但是当业务复杂度和数据量逐渐升高后,使用这套方案的开发成本和维护成本都显著上升。因此,如何对已经固化下来的查询进行亚秒级返回一直是企业应用中的一个痛点。 在这种情况下,Apache Kylin应运而生。不同于“大规模并行处理”(Massive Parallel

kylin相关问题

那年仲夏 提交于 2019-12-15 20:39:41
1.Kylin踩坑笔记 - 启动Kylin出现Could not find or load main class org.apache.hadoop.hbase.util.GetJavaProperty https://blog.csdn.net/weixin_40040107/article/details/102769107 2.Kylin踩坑笔记 - 启动 Kylin 报错 org/apache/commons/configuration/ConfigurationException https://blog.csdn.net/weixin_40040107/article/details/102772525 3.Kylin踩坑笔记 - /developer/apache-kylin-2.6.2-bin/tomcat/conf/.keystore (No such file) https://blog.csdn.net/weixin_40040107/article/details/102772356 4.kylin安装配置CDH6.2.0+kylin2.6.2 https://juejin.im/post/5cdfd597e51d4510b35001c1 来源: https://www.cnblogs.com/shwang/p/12045663.html

presto、druid、sparkSQL、kylin的对比分析

走远了吗. 提交于 2019-12-11 10:27:18
开源的OLAP引擎,按照查询类型划分,OLAP一般分为即 席查询和固化查询。 即席查询: 通过手写sql完成一些临时的数据分析需求,这类sql形式多变、逻辑复杂,对查询时间没有严格要求 固化查询: 指的是一些固化下来的取数、看数需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类的sql固定模式,对响应时间有较高要求。 按照架构实现划分,主流的OLAP引擎主要有下面三点: MPP架构系统 (Presto/Impala/SparkSQL/Drill等)。这种架构主要还是从查询引擎入手,使用分布式查询引擎,而不是使用hive+mapreduce架构,提高查询效率。 搜索引擎架构的系统 (es,solr等),在入库时将数据转换为倒排索引,采用Scatter-Gather计算模型,牺牲了灵活性换取很好的性能,在搜索类查询上能做到亚秒级响应。但是对于扫描聚合为主的查询,随着处理数据量的增加,响应时间也会退化到分钟级。 预计算系统(Druid/Kylin等) 则在入库时对数据进行预聚合,进一步牺牲灵活性换取性能,以实现对超大数据集的秒级响应。 这几个框架都是OLAP大数据分析比较常见的框架,各自特点如下: presto :facebook开源的一个java写的分布式数据查询框架,原生集成了Hive、Hbase和关系型数据库

Apache kylin cube fails “no counters for job”

自闭症网瘾萝莉.ら 提交于 2019-12-10 11:58:00
问题 using kylin 1.5.4, when i build the cube it fails at step 3 , log says "no counter for job". It's not fetching cardinality of hive table as well. When i create a model or cube it throws failed to take action error, but when i close the json page, they are created. It isn't fetching the date partition column, throwing column not found in logs. Any help or insights are greatly appreciated. 回答1: A little late to this, but I also had this issue on my current project where I got the "no counters

Apache Kylin

寵の児 提交于 2019-12-10 11:19:23
Overview Kylin 的使命是超高速的大数据 OLAP (Online Analytical Processing),也就是要让大数据分析像使用数据库一样简单迅速,用户的查询请求可以在秒内返回。其中的关键就是打破查询时间随着数据量成线性增长的这个规律。解决方案是针对维度聚合的预计算,因为由于业务范围和分析需求是有限的,有意义的维度组合也是相对有限的,一般不会随着数据的膨胀而增长。传统的Hadoop生态提供了 大规模并行处理 和 列式存储 两大关键技术, 预计算 是Kylin提供的第三大关键技术。 Concept MOLAP(Multidimensional Online Analytical Processing)Cube 多维立方体分析 Dimension and Measure(维度和度量) 维度是观察数据的角度,度量是被聚合的统计值 Cube and Cuboid N个维度,组合的可能性共有2^N种;对于每一种维度的组合,将度量做聚合运算,然后将运算的结果保存为一个物化视图,称为 Cuboid ;所有维度组合的 Cuboid 作为一个整体,被称为 Cube 。一个 Cube 就是许多按维度聚合的物化视图的集合。 Process Kylin的工作原理就是对数据模型做 Cube 预计算,并利用计算的结果加速查询: 指定数据模型,定义维度和度量 预计算Cube

链家大数据多维分析引擎实践

被刻印的时光 ゝ 提交于 2019-12-08 22:29:17
前言 大数据背景下,传统关系型多维分析 ROLAP 引擎遇到极大挑战,因而链家转向基于 Hadoop 生态的 MOLAP(Kylin)及 HOLAP (多引擎)。在架构师实践日北京站中,链家大数据集群架构组负责人邓钫元进行演讲,分享了链家在多维分析引擎方面的一些实践经验,主要从 OLAP 的背景和简介、链家多维分析架构演进和展望、OLAP 平台链路优化这三部分来介绍。 一、OLAP 的背景和简介 > > > > 1. OLAP vs OLTP OLAP 翻译成中文叫 联机分析处理 ,OLTP 叫 联机事务处理 。OLTP 它的核心是事务,实际上就是我们常见的数据库。我们业务数据库就是面向于事务。它的并发量会比较高,但是操作的数据量会比较小。它是实时更新的。数据库的设计会按照 3NF 范式,更高的话可能会按照 BC 范式之类的来做。而 OLAP 的核心是分析,面向应用是分析决策,需要分析的数据级会非常大,可能 TB,甚至 PB 都会有。它的数据更新会稍微慢一些,它的设计一般是反范式的,因为面向分析。常见的是雪花模型和星型模型。 实际上 OLAP 是什么呢? 非常简单,就是一个 SQL,这里按照两个维度,一个 returnflag,一个 orderstatus 来做 Group By,然后做一下 Sum,Group By 这段就叫维度,From 这段叫做指标,非常简单。 > > > >

ubuntu kylin (ubuntu16)安装Tomcat7

寵の児 提交于 2019-12-07 03:29:02
第一个网址用Google打开。 http://www.myexception.cn/linux-unix/1944653.html http://lucene.apache.org/solr/quickstart.html tomcat 端口配置http://www.duntuk.com/how-install-apache-solr-46-apache-tomcat-7-use-drupal 一、环境说明: 操作系统:Ubuntu 12.04.2 LTS Tomcat:apache-tomcat-7.0.52 二、下载 下载地址:http://tomcat.apache.org/ 这里下载的是 apache-tomcat-7.0.52.tar.gz。 三、安装配置 我这下载完成后在当前用户的下载文件夹。进入下载文件夹: 解压下载的压缩包: ~ $ tar - zxvf apache - tomcat - 7.0 . 52 .tar.g 重命名解压文件: ~ $ mv apache - tomcat - 7.0 . 52 tomcat7 将tomcat7文件夹移动到/usr/local/: ~ $ sudo mv tomcat7 / usr / local / 设置环境变量: $ sudo gedit ~/. bashrc 最下方加入: # set tomcat

Kylin的安装及遇到的问题

你说的曾经没有我的故事 提交于 2019-12-06 04:17:47
************************************************************************************************ 首先,这是我博客园的第一篇记录,终于加入了分享的队伍,恭喜自己!! ************************************************************************************************ 以下正文: 工作原因,最近开始学习Kylin,关于Apache Kylin的介绍可以参见中文官网: 1 http: // kylin.apache.org/cn/ 本篇主要记录一下Kylin的安装及我遇到的问题。 首先,Kylin的下载安装很简单,可以参考官网安装文档: 1 http: // kylin.apache.org/cn/docs/install/index.html 其中包含了JDK,Hadoop,Hive,HBase等相关组件的版本要求,硬件要求以及安装步骤。 如果是在已有JDK,Hadoop,Hive,HBase的环境下,最好先根据现有环境的组件版本去官网确定要使用的Kylin版本,然后再下载。 官网下载地址: 1 http: // kylin.apache.org/cn/download/ 下载,解压,配置环境变量后