kylin

[kylin] 部署kylin服务

落花浮王杯 提交于 2019-11-27 07:04:17
官网: http://kylin.apache.org/ 社区: https://github.com/KylinOLAP/Kylin/issues http://apache-kylin.74782.x6.nabble.com/ 源码: https://github.com/apache/kylin 博客: Apache Kylin的快速数据立方体算法 Apache Kylin (v1.5.0) 发布,全新设计的新一代 Apache基金会宣布Apache Kylin成为顶级项目 逐层(By Level)算法 VS 逐块(By Split) 算法 Kylin正式发布:面向大数据的终极OLAP引擎方案 Apache Kylin在百度地图的实践 京东王晓雨:Apache Kylin在云海的实践 一、工具准备 zookeeper3.4.6 (hadoop、hbase 管理工具) Hadoop.2.7.1 Hbase1.1.4 Kylin1.5.0-HBase1.1.3 Jdk1.7.80 Hive 2.0.0 二、虚拟主机 192.168.200.165 master1 192.168.200.166 master2 192.168.200.167 slave1 192.168.200.168 slave2 三、安装mysql 查看是否安装了 mysql ( master1 )

Kylin工作原理、体系架构

五迷三道 提交于 2019-11-27 07:04:05
核心思想:预计算。   对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,并存在HBase中,供查询时直接访问   将高复杂度的聚合运算、多表连接……操作转换成对预计算结果的查询。决定了Kylin拥有很好的快速查询、高并发能力   理论基础:空间换时间 Cuboid:Kylin中将维度任意组合成为一个Cuboid Cube:Kylin中将所有维度组合成为一个Cube,即包含所有的Cubeid   为了更好地使用Hadoop大数据环境,Kylin从通常用来做数据仓库的HIve中读取源数据,使用Mapreduce作为Cube构建的引擎,并将于计算结果保存在HBase中,对外暴露Restful API/JEBC/ODBC的查询接口。   Kylin支持标准的ANSI SQL,所以可以和常用分析工具(Tableau、Excel)进行无缝对接 restful api:   符合REST架构设计的API。   RESTful架构,就是目前最流行的一种互联网软件架构。它结构清晰、符合标准、易于理解、扩展方便,所以正得到越来越多网站的采用   REST,即Representational State Transfer的缩写   如果一个架构符合REST原则,就称它为RESTful架构   什么是RESTful架构:   (1)每一个URI代表一种资源;   (2)客户端和服务器之间

kylin(一): 原理架构

坚强是说给别人听的谎言 提交于 2019-11-27 07:03:55
由eBay开源的一个大数据OLAP框架,2014年11月加入了Apache,项目名字也改成了“Apache Kylin”,Apache Kylin是唯一来自中国的Apache顶级开源项目,定位于在Hadoop平台之上实现 传统数据仓库,商业智能的能力,提供交互式的,多维分析能力 ,并提供在传统数据仓库技术所不能做到的 超大规模数据集的快速查询 ,并使用普通的PC硬件,而无需采购专用的,私有的一体机或者高端存储等 kylin是一个MOLAP系统,通过预计算的方式缓存了所有 需要查询的的数据结果,需要大量的存储空间( 原数据量的10+倍 )。一般我们要分析的数据可能存储在关系数据库、HDFS上数据、文本文件、excel 等。kylin主要是对 hive中的数据进行预计算,利用hadoop的mapreduce框架实现 当前已经有超过100多家国内国外的公司正式使用Kylin作为其大数据分析平台的核心。包括eBay、Glispa、微软、Expedia、百度、美团、网易、京东、唯品会、中国移动、中国电信、国泰君安、华泰证券、联想、〇PP〇、魅族、去哪儿等等。Apache Kylin被用到了诸多如数据仓库,用户行为分析,流量(日志)分析,自助分析平台,电商分析,广告效果分析,实时分析,数据服务平台等各种场景 目录 系统架构 组件介绍 部署结构 (参考: https://www.sdk.cn

kylin跨集群配置实现读写分离

我只是一个虾纸丫 提交于 2019-11-26 04:23:52
社区提供的读写分离架构图如下: 通过架构图可以看到Kylin会访问两个集群的HDFS,建议两个集群的NameService务必不能相同,尤其是集群启用NameNode HA时,相同的NameService会导致组件在跨集群访问HDFS时因无法区分NameService而出现问题。 两个集群: cluster1(hive集群):hdfs.hive,yarn,zookeeper,mr cluster2(hbase集群):hdfs,hbase,zookeeper,yarn,kylin 首先配一个KYLIN_HOME,配到KYLIN的主目录 我们的kylin安装在cluster2上,只要在cluster2上面配置环境变量就可以了。 在cluster2上要配置很多cluster1的hadoo参数 我单独创建一个目录放在$KYLIN_HOME下,叫hadoop_conf,里面需要有这些文件 下面解释一下哪些用cluster1的参数,哪些文件用cluster2的参数.。如果用cluster1的参数,直接从cluster1拷贝过来就行了。 这些文件都在$KYLIN/HOME/hadoop_conf这个目录下 core-site.xml----cluster1 这个里面配置了hdfs的地址 hbase-site.xml---cluster2 hdfs-site.xml----cluster2