kylin

Kylin 精确去重在用户行为分析中的妙用

无人久伴 提交于 2019-12-05 14:49:26
作者:史少锋,Apache Kylin committer & PMC,2019/10/11 在上次文章 《如何在 1 秒内做到大数据精准去重》 中,我们介绍了 Apache Kylin 为什么要支持大数据集上的精确去重,以及基于 Bitmap 的精确去重原理等。看到今天的文章标题,你肯定要问,精确去重跟用户行为分析又能有什么关系呢?原来啊,Kylin 采用 Bitmap 完整记录了每个维度组合下的用户集合,利用 Bitmap 提供的或(or)运算方法来高效精准地回答了各种条件下的去重用户数。其实 Bitmap 除了支持或(or)运算外,还支持与(and)运算。因此,稍加扩展,Kylin 就可以基于 Bitmap 的中间结果,轻松实现诸如留存、漏斗等大量使用交集运算的分析,从而非常方便地运用在用户行为、用户画像等领域中。可以说精确去重功能有着一石两鸟的价值,本文将为您介绍如何使用 Kylin 来实现精准的用户行为分析。 示例 先从一个简单的例子说起吧。现在有一个 app 的用户访问记录表 access_log,它包含三个字段:DT (访问日期),User ID(用户标示)和 Page(访问页): DT User ID Page 20190101 100 index.html 20190101 101 search.html 20190101 102 detail.html … …

kylin初体验-入门介绍

旧时模样 提交于 2019-12-04 15:47:00
kylin初体验 12月开始,为了提高公司OLAP系统的查询速度,开始接触kylin,前前后后折腾了近三个月。踩了无数的坑,才算是初窥门径。特在此把自己的感悟、理解记录下来,算是重新梳理一边自己的所得,也希望能给众位正在使用kylin或者打算使用kylin的小伙伴们提供一点帮助😊 一句话的概括(我的理解) kylin将OLAP分析的星型模型schema的所有group by聚合结果存储在HBASE的表中,通过将sql查询转化成对hbase表的聚合操作的方式大大提高查询速度。 官方介绍 http://kylin.apache.org/ Apache Kylin™ is an open source Distributed Analytics Engine designed to provide SQL interface and multi-dimensional analysis (OLAP) on Hadoop supporting extremely large datasets, original contributed from eBay Inc. kylin的角色 上层应用 SQL应用:Zeplin等,通过jdbc/odbc调用kylin 第三方应用:通过kylin的restful接口调用kylin BI应用:Saiku+Mondrian, Tabula kylin

CSP-S2019第二轮认证(复赛)游记

对着背影说爱祢 提交于 2019-12-04 12:23:15
今年第一次在本地考…… Day -1 最近四场模拟赛两场切了T3,但是三场挂了T1,有点慌。早上打完比赛下午听神仙讲题顺便学习了一下弦图复习了一下分块。 立了Flag:450+去表白,500+当着教练的面表白。 我的某位好朋友表示很期待(虽然我觉得500+不太行。)晚上写了写分块,觉得我太菜了;然后就敲了个主席树,调了半个小时才发现L和l打错了。 很好,Kylin_xy小蒟蒻已经被自己的菜吓死了。 为了涨信心准备熬夜写莫队,然后被我妈拖去睡觉。QwQ…… Day 0 Day 1 Day 2 Day 3 Day 4 滚回去上文化课 Day ? 出成绩 来源: https://www.cnblogs.com/Kylin-xy/p/11863687.html

Kylin笔记

允我心安 提交于 2019-12-04 06:34:20
简介 Apache Kylin(Extreme OLAP Engine for Big Data)是一个开源的分布式 分析引擎,为Hadoop等大型分布式数据平台之上的超大规模数据集通过标准 SQL查询及多维分析(OLAP)功能,提供亚秒级的交互式分析能力。 Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区。 它提供Hadoop之上的SQL查询接口及 多维分析(OLAP)能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在 亚秒级查询巨大的Hive表,并支持高并发。 于2014年10月在github开源,并很快在2014年11月加入Apache孵化器,于 2015年11月正式毕业成为Apache顶级项目,也成为首个完全由中国团队设计开发的 Apache顶级项目。 于2016年3月,Apache Kylin核心开发成员创建了Kyligence公司,力求 更好地推动项目和社区的快速发展。 使用它的原因 在大数据的背景下,Hadoop的出现解决了数据存储问题,但如何对海量数据进行 OLAP查询,却一直令人十分头疼。企业中大数据查询大致分为两种:即席查询和定制查询。 即席查询 Hive、SparkSQL等OLAP引擎,虽然在很大程度上降低了数据分析的难度,但它们都只适用于即席查询的场景。 它们的优点是查询灵活,但是随着数据量和计算复杂度的增长

Kylin-2.6.2集群部署

早过忘川 提交于 2019-12-03 04:55:39
1. 集群节点规划与说明 rzx1 all rzx2 query rzx3 query 说明: Kylin节点角色有三种: all: 包含query和job query: 查询节点 job: 工作节点 2. Kylin依赖的其他大数据组件非常多,下列列表是安装kylin需要的组件 JDK 1.8<必须项> HADOOP<必须项,hdfs作为数据存储基础,这里版本是hadoop-2.7.7> ZOOKEERER<必须项,集群协调,这里版本zookeeper-3.4.13> HBASE<必须项,可以理解为数据中间件,这里版本hbase-2.0.4> HIVE<必须项,kylin OLAP基础数仓或可以理解为OLAP数据源,这里版本hive-2.3.4> KAFKA<可选项,这里不安装> 3. 在已下载解压好的目录下 <下载地址: https://archive.apache.org/dist/kylin/> 在rzx1节点下: vim conf/kylin.properties: kylin.server.mode=all kylin.server.cluster-servers=rzx1:7070,rzx2:7070,rzx3:7070 kylin.coprocessor.local.jar=/home/bigdata/software/kylin-2.6.2/lib/kylin

Gson的基本使用

匿名 (未验证) 提交于 2019-12-03 00:34:01
GSON:谷歌的一款开源项目,主要用于解析json数据,有很多很友好的个性化设置     思想:把json字符串与java对象相关联    序列化:把java对象转换成json字符串    反序列化:把json字符串转换成java对象 使用springMVC获取web前端传送过来的数据    Gson处理简单数据(key对应的value是简单的String类型/或者number ) 主要的方法: 例如: 前端传送如下json字符串: {   "username":"kylin",   "password":"123456" } //那么controller中就可以有如下的操作(User类的内容就不导入) @RequestMapping(value = "/LOGIN",method = RequestMethod.POST) public String LOGIN(@RequestBody String jsonStr){ // 使用gson来获取数据并且进行操作 Gson gson= new Gson(); // 序列化 User user=gson.fromJson(jsonStr,User. class ); String username = user.getUsername(); String password = user.getPassword(); System

kylin从入门到实战:实际案例

匿名 (未验证) 提交于 2019-12-03 00:07:01
kylin从入门到实战:实际案例 版权申明:转载请注明出处。 文章来源: http://bigdataer.net/?p=308 排版乱?请移步 原文 获得更好的阅读体验 前面两篇文章已经介绍了kylin的相关概念以及cube的一些原理,这篇文章将从一个实际的案例入手,介绍如何在kylin平台上创建一个多维分析项目。 1.创建project 进入kylin操作界面,如果没有project可以创建,kylin里面可以创建多个project,有效的把各种业务数据分析隔离开来。如图: 如下,填写project name,description可以不填 然后submit 提交,project创建成功。 2.添加数据源 点击DataSource选项卡->Load Hive Table 填写hive表名,前面加上库名 然后点击sync,导入数据源成功,可以看到如下信息: 3.创建model 添加model name然后 next 选择刚才添加到数据源中的事实表,如果有Lookup Table也可添加,然后next 选择需要的维度 选择需要的指标 相关设置 partition date colume表示分区字段,选择hive表中按时间分区的字段。然后从date format中选择不同的时间格式。最下面的filter可以添加where条件对数据源中的数据做过滤。 至此,model创建完成。 4

Kylin 单节点安装

匿名 (未验证) 提交于 2019-12-02 23:32:01
软件环境 Hadoop: 2.7+, 3.1+ (since v2.5) Hive: 0.13 - 1.2.1+ HBase: 1.1+, 2.0 (since v2.5) Spark (optional) 2.3.0+ Kafka (optional) 1.0.0+ (since v2.5) JDK: 1.8+ (since v2.5) OS: Linux only, CentOS 6.5+ or Ubuntu 16.0.4+ 硬件要求 运行Kylin的服务器的最低配置是4核CPU,16 GB RAM和100 GB磁盘。对于高负载情况,建议使用24核CPU,64 GB RAM或更高。 Hadoop环境 Kylin依靠Hadoop集群来处理大型数据集。您需要准备一个Hadoop集群,其中包含HDFS,YARN,MapReduce,Hive,HBase,Zookeeper和其他服务,以便Kylin运行。 Kylin可以在Hadoop集群中的任何节点上启动。为方便起见,您可以在主节点上运行Kylin。为了获得更好的稳定性,建议与配置单元,HBase的,HDFS和安装的其他命令行和客户端配置(如干净的Hadoop客户端节点上部署麒麟 core-site.xml , hive-site.xml , hbase-site.xml 及其他)也被合理地配置,并且可以与其他节点被自动同步。

CentOS7 安装kylin2.6.0集群

匿名 (未验证) 提交于 2019-12-02 23:05:13
1. 环境准备 zookeeper3.4.12 mysql5.7 hive2.3.4 hadoop2.7.3 JDK1.8 hbase1.3.3 2. 集群规划 ip地址 机器名 角色 192.168.1.101 palo101 hadoop namenode, hadoop datanode, yarn nodeManager, zookeeper, hive, hbase master,hbase region server, 192.168.1.102 palo102 192.168.1.103 palo103 hadoop namenode, hadoop datanode, yarn nodeManager, zookeeper, hive,hbase region server,mysql 3. 下载kylin2.6 wget http://mirrors.tuna.tsinghua.edu.cn/apache/kylin/apache-kylin-2.6.0/apache-kylin-2.6.0-bin-hbase1x.tar.gz #下载kylin2.6.0二进制文件 tar -xzvf apache-kylin-2.6.0-bin-hbase1x.tar.gz #解压kylin2.6.0二进制压缩包 mv apache-kylin-2.6.0-bin apache

基于 Druid 的 Apache Kylin 存储引擎实践

匿名 (未验证) 提交于 2019-12-02 22:56:40
在2018年8月的Apache Kylin meetup@北京活动上,美团点评工程师做了关于使用 Druid 做为 Apache Kylin 存储引擎的实践,并更新了 Kylin 在美团点评的使用现状。 篇幅过长,完整资源地址 https://www.slidestalk.com/s/KylinOnDruidInMeituan 文章来源: 基于 Druid 的 Apache Kylin 存储引擎实践