kylin

apache kylin总结

人走茶凉 提交于 2020-01-15 04:39:50
去年12月挖的坑,今天找时间填上。update:20190119 一、kylin架构 核心是预计算,在此架构上做了一些优化。计算结果存储在Hbase,对Hive等查询转换为Hbase的Scan,提高速度。 缺点亦明显,先天没有AD-HOC能力 二、kylin高可用部署 Kylin的每个结点都可以部署为Job节点(build cube用)兼查询节点。并且每个节点之间对等。因此只要前面加个Nginx做请求转发即可。 Kylin支持通过增加节点水平扩容。 三、kylin on hbase vs kylin on druid 目前的 Kylin 数据存储使用 HBase,存储 Cube 时将维度值和度量值转换成 HBase 的 KeyValue。因为 HBase 不支持二级索引,只有一个行键 (RowKey) 索引,Kylin 的维度值会按照固定的顺序拼接作为 RowKey 存储,那么排在 RowKey 前面的维度,就会获得比后面的维度更好的过滤性能。 也就是说排在rowkey后面的维度查询,效率极低,因为需要scan Hbase的行数非常大,Druid可以解决这个问题。 其特点: 1)数据实时流入,毫秒级延迟即可查询。与ES有些像? 2)支持倒排索引,具有良好的过滤性能。(Hbase只支持一级索引,导致rowkey后面的维度过滤性能差) 这是其较于 Kylin On

3. Kylin的使用

随声附和 提交于 2020-01-14 19:46:53
3.1简单案例 具体操作步骤 通过同步数据源 建立project->建立model->建立cube->build。 3.1.1 导入Hive表 Hive执行如下操作 create database if not exists sxt_kylin ; use sxt_kylin ; create table kylin_sale ( id int , day date , market string , category string , item string , number int , sales int ) row format delimited fields terminated by ',' lines terminated by '\n' ; kylin_sale表中数据为 1 , 2019 - 08 - 08 , 商场1 , 家电类 , 电脑 , 2 , 9000 2 , 2019 - 08 - 08 , 商场1 , 家电类 , 冰箱 , 3 , 3000 3 , 2019 - 08 - 08 , 商场1 , 家电类 , 洗衣机 , 6 , 3000 4 , 2019 - 08 - 08 , 商场1 , 日用品类 , 厨具四件套 , 10 , 500 5 , 2019 - 08 - 08 , 商场1 , 日用品类 , 锅碗瓢盆 , 5 , 200 6 , 2019

kylin构建cube

给你一囗甜甜゛ 提交于 2020-01-01 17:28:05
1,新建项目 2.导入hive指定数据指定表 3,新建model 第一步 第二步,增加外键关联 第三步,指定维度 第四步,选定度量值 第五步,自动合并,可以不选 4,新建cube 第一步,关联model 第二步,增加维度 第三步,增加度量,比如求和sum,最大max,最小min等 第四步,自动合并 没有自动合并,把7和28 两行删除 第五步,Advanced Setting 可以选择计算引擎mapreduce或者spark 第六步,kylin配置设置 可以从新买修改配置值 第七步,预览 4,build Cube action选择build monitor查看构建过程 来源: CSDN 作者: 卖男孩的小西瓜 链接: https://blog.csdn.net/seulzz/article/details/103792830

Apache Kylin v3.0.0 正式发布!

妖精的绣舞 提交于 2019-12-30 10:29:47
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Apache Kylin 社区于日前宣布:Apache Kylin v3.0.0 正式发布!欢迎大家下载使用。 Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询,已被 eBay、腾讯、美团点评、滴滴、OLX 集团等全球上千家企业采用。01 1. release Notes Apache Kylin v3.0.0 是继 v2.x 版本后的一个重大版本,特别是为 Kylin 添加了针对实时数据的交互式分析能力(Real-time OLAP)。在此版本之前,Kylin 还发布了 3 个测试版本 (v3.0.0-alpha,v3.0.0-alpha2,v3.0.0-beta),4 个版本共添加了 8 个功能,102 个增强,修复了 88 个问题,包括缺陷修复和改进等,详情请访问:https://kylin.apache.org/docs/release_notes.html 重要更新: [KYLIN-3654] – Kylin Real-time Streaming 功能 [KYLIN-3795] – 支持使用 Apache Livy 提交 Spark 任务 [KYLIN-3820] – 基于

Kylin 在一点资讯的实践

筅森魡賤 提交于 2019-12-28 10:14:34
在近期的 Apache Kylin Meetup 北京站上,我们邀请到了一点资讯的大数据平台高级工程师毛洪玥来分享 Kylin 在一点资讯的应用。本次分享由一点资讯 OLAP 发展历程和系统基础架构开始,以 Kylin 在一点资讯的业务需求和实践经验为依托,分享针对数据量较大的Cube如何提高查询响应速度,如何缩短构建时间,如何缓解 HBase 压力来提升稳定性,及使用过程中遇到的特殊数据问题与解决方案等。 发展历程 2016 年 9 月开始,一点资讯选择了综合性能优秀的 Druid 来承接大数据部门、算法部门和广告部门的多维分析查询需求。2017 年 9 月,接入刚刚开源的 Doris,承接明细查询和 SQL 分析业务。 至今年 5 月,随着业务增长和数据积累,冷数据占比增高,机器利用率降低。大部分数据月查询次数不超过 1 次,却需要长期存储,因而造成大量机器资源浪费。如何提高有限资源的利用率,支持维度高达 27 个,日志量达 1 T/天,查询周期长达 1 年的业务呢?经过一系列调研,一点资讯决定使用 Kylin 系统。Kylin 支持Hive、Kafka等形式的数据源,Cube存储及查询使用HBase,构建任务可以利用运行在Yarn上的MapReduce或Spark任务,这些都是一点资讯使用中的大数据组件,它们的存储计算均为PB级或以上级别,只需要再搭建轻量级 Kylin

Kylin大数据分析神兽

天涯浪子 提交于 2019-12-23 21:58:28
apache版本安装 安装 hbase-1.2.11-bin.tar.gz 安装 hive-2.1.0 安装 hadoop-2.6.0-cdh 安装 zookeeper-3.4.12 安装 apache-kylin-2.0.0-bin-hbase1x.tar.gz 注意:cdh环境请下载其他版本 配置下环境变量直接启动即可 mysql远程访问 GRANT ALL PRIVILEGES ON hive.* TO 'root'@'%' IDENTIFIED BY '访问密码'; flush privileges; https://blog.csdn.net/qq_27078095/article/details/56865443 hadoop编译snappy https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/bk_installing_manually_book/content/rpm-chap1-11.html 配置yarn文档 ================================================================================= 企业版 kyligence 安装 官网: https://kyligence.io/zh/ 1、安装条件CDH

CDH集成Kylin

守給你的承諾、 提交于 2019-12-22 21:49:02
CDH集成Kylin 下载地址: 下载CDH5版本Kylin 一、安装启动 1. 上传并解压下载的tar包 tar -zxvf apache-kylin-2.6.4-bin-cdh57.tar.gz -C /opt/cdh-5.15.2 mv apache-kylin-2.6.4-bin-cdh57 kylin-2.6.4 2. 配置环境变量 注意:Spark作为Kylin启动的一项环境检查,无论是否使用Spark作为Kylin的构建引擎,都需要集群安装Spark sudo vim /etc/profile # # SPARK_HOME export SPARK_HOME = /opt/cdh-5.15.2/cloudera/parcels/SPARK2/lib/spark2 export PATH = $PATH : $SPARK_HOME /sbin # # KYLIN_HOME export KYLIN_HOME = /opt/cdh-5.15.2/kylin-2.6.4 export PATH = $PATH :KYLIN_HOME/bin # # 重加载文件生效 source /etc/profile 3. 修改配置文件 vim $KYLIN_HOME /conf/kylin.properties # # 修改: kylin.server.cluster-servers

Hadoop Spark Kylin...你知道大数据框架名字背后的故事吗?

放肆的年华 提交于 2019-12-22 14:26:25
对软件命名并不是一件容易的事情,名字要朗朗上口,易于记忆,既不能天马行空,又要代表软件本身的功能和创新。本文将历数几款大数据框架及其创始背后的故事。 Hadoop:最具童心 2004年,Apache Hadoop(以下简称Hadoop)的创始人Doug Cutting和Mike Cafarella受MapReduce编程模型和Google File System等论文的启发,对论文中提及的思想进行了编程实现,Hadoop的名字来源于Doug Cutting儿子的玩具大象。当时Cutting的儿子刚刚两岁,正处在咿呀学语的阶段,经常将自己的黄色玩具大象叫做"Hadoop",Cutting灵机一动,将自己的大数据项目以此来命名。 Cutting称,软件的名字有时候要听起来“毫无意义”,因为软件会随着时间不断迭代演进,一开始就使用一个与其初始功能紧密相关的名字,日后有可能比较尴尬。 由于Doug Cutting后来加入了雅虎,并在雅虎工作期间支持了大量Hadoop的研发工作,因此Hadoop也经常被认为是雅虎开源的一款大数据框架。时至今日,Hadoop不仅仅是整个大数据领域的先行者和领导者,更形成了一套围绕Hadoop的生态系统,Hadoop和它的生态是绝大多数企业首选的大数据解决方案。 目前,Hadoop的核心组件主要有三个: Hadoop MapReduce

在 Kylin 中实现异常值检测 UD(A)F

给你一囗甜甜゛ 提交于 2019-12-20 12:59:33
本文讲解了时间序列数据异常值检测的基本概念和在 Kylin 中开发使用异常值检测 UDF 的方法,可以作为其他 UDF 开发的参考。 通过在 Kylin 中移植 Hivemall 的 UDF,我们可以充分利用 Kylin 的优势,减少直接使用 Hivemall 过程中的数据加工、存储等繁杂步骤的工作量,提升用户的查询体验。本文使用的验证环境为 Kylin 2.6.3。 时间序列数据的异常值检测 时间序列数据是聚合数据中的一种重要类别,数据分析人员经常需要使用各种方法从不同角度对聚合得到的时间序列数据进行挖掘,异常值检测(Anomaly Detection)就是其中的一种常见方法。异常值检测的主要目标是从时间序列数据中区分出与预期的正常值不符的值[1],如离群值(outlier)和突变点(change-point)等,这些值往往具有比较高的关注价值,是分析人员在进行业务分析时需要重点关注的对象。 时间序列数据的异常值检测具有广泛的应用场景,例如:应用在一般的商业领域中,有助于定位生产销售中的异常波动;应用在运维中,有助于迅速发现故障;应用在医学上,有助于医生做出诊断,等等。 Hivemall 的异常值检测函数 使用传统方法在大数据集上进行异常值检测存在效率低、不够灵活等问题,因此就有人尝试引入 Hive,通过对 Hive 进行扩展来解决这些问题。例如,Apache 孵化项目

在 Kylin 中实现异常值检测 UD(A)F

ε祈祈猫儿з 提交于 2019-12-20 11:54:05
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 本文讲解了时间序列数据异常值检测的基本概念和在 Kylin 中开发使用异常值检测 UDF 的方法,可以作为其他 UDF 开发的参考。 通过在 Kylin 中移植 Hivemall 的 UDF,我们可以充分利用 Kylin 的优势,减少直接使用 Hivemall 过程中的数据加工、存储等繁杂步骤的工作量,提升用户的查询体验。本文使用的验证环境为 Kylin 2.6.3。 时间序列数据的异常值检测 时间序列数据是聚合数据中的一种重要类别,数据分析人员经常需要使用各种方法从不同角度对聚合得到的时间序列数据进行挖掘,异常值检测(Anomaly Detection)就是其中的一种常见方法。异常值检测的主要目标是从时间序列数据中区分出与预期的正常值不符的值[1],如离群值(outlier)和突变点(change-point)等,这些值往往具有比较高的关注价值,是分析人员在进行业务分析时需要重点关注的对象。 时间序列数据的异常值检测具有广泛的应用场景,例如:应用在一般的商业领域中,有助于定位生产销售中的异常波动;应用在运维中,有助于迅速发现故障;应用在医学上,有助于医生做出诊断,等等。 Hivemall 的异常值检测函数 使用传统方法在大数据集上进行异常值检测存在效率低、不够灵活等问题,因此就有人尝试引入 Hive,通过对