kylin

数据生成器

你离开我真会死。 提交于 2021-01-09 11:10:48
data-generator 是一个Java实现的数据生成器开源项目。 如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse等不同实现方案之间的表现,那你就需要一份标准的数据进行测试,这个开源项目就是为了生成这样的标准数据。 数据模型:src/main/resources/数据模型.png 一、编译程序: mvn assembly:assembly 二、在MySQL中创建一个数据库,然后执行 src/main/resources/model_ddl.sql 创建对应的表。 三、指定ES的经纬度类型: curl -H "Content-Type: application/json" -XPUT 'http://192.168.252.193:9200/contract/contract/_bulk' -d ' { "index":{ "_id": 1} } {"id":1} ' curl -H "Content-Type: application/json" -XPUT 'http://192.168.252.193:9200/contract/_mapping/contract' -d ' { "properties":

kylin的cube的原理

杀马特。学长 韩版系。学妹 提交于 2020-03-07 11:57:03
Kylin基本原理及概念 2019-01-24阅读 1K0 “带你走进Apache Kylin的世界” Kylin版本:2.5.1 前言 膜拜大神,Kylin作为第一个由国人主导并贡献到Apache基金会的开源项目,堪称大数据分析界的“神兽”。所以我也是抓紧时间来学习Kylin,感受Kylin所带来的魅力。 一、Kylin简介 Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求,它提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。其核心是预计算,计算结果存在HBase中。 作为大数据分析神器,它也需要站在巨人的肩膀上,依赖HDFS、MapReduce/Spark、Hive/Kafka、HBase等服务。 二、Kylin优势 Kylin的主要优势为以下几点: 可扩展超快OLAP引擎:Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计 Hadoop ANSI SQL 接口:Kylin为Hadoop提供标准SQL支持大部分查询功能 交互式查询能力:通过Kylin,用户可以与Hadoop数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能 多维立方体(MOLAP Cube):用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体 与BI工具无缝整合

Kylin膨胀率优化

倾然丶 夕夏残阳落幕 提交于 2020-03-03 07:00:15
维度设置 Hierarchy Dimensions:维度列中彼此间存在层级关系的列 职类(一二级职类)、行业(一二级行业)、地域(省、市、区)这些必选维度都可以设置为层级关系列,可大大降低维度组合的可能性 Aggregation Group:在不同的查询中,两组维度组合之间不会产生交叉 Rowkey顺序 将partition column 放在第一排; 将基数大的column放置在前面。 来源: CSDN 作者: liuwei063608 链接: https://blog.csdn.net/liuwei063608/article/details/104613579

Kylin集群模式部署(使用同一HBase存储)

不羁的心 提交于 2020-02-27 10:35:22
HDP版本:3.0 Kylin版本:2.6.0 前言 本文主要讲解如何部署Kylin集群,采取多个Kylin实例共享HBase存储的模式,如果需要事先了解Kylin基本概念的朋友可以 点击这里 前往。 一、安装启动Kylin 首先安装一个Kylin实例,然后再分析Kylin集群模式部署的注意点。 <!--more--> 1. 下载源码 这里使用的是Kylin-2.6.0的版本,如果需要其它版本的话,请点击 这里 cd /usr/hdp/3.0.1.0-187/ wget https://dist.apache.org/repos/dist/dev/kylin/apache-kylin-2.6.0-rc1/apache-kylin-2.6.0-bin-hadoop3.tar.gz mv apache-kylin-2.6.0-bin-hadoop3.tar.gz kylin 2. 修改配置文件 启动kylin服务时,会在Retrieving hive dependency...卡住,需要手动敲两下回车或者任意命令才可以继续往下执行,否则会一直被卡住。 觉得是由于Hive版本升级,hive命令行仅支持JDBC操作,所以需要输入用户名和密码所导致的Retrieving hive dependency...卡住。 解决办法是:修改kylin配置,将hive执行模式改为beeline。 cd

第1章 大数据Kylin之概述

╄→尐↘猪︶ㄣ 提交于 2020-01-30 15:27:45
Kylin概述 1.1、 Kylin定义 Apache Kylin是一个开源的分布式 分析引擎 ,提供Hadoop/Spark之上的SQL查询接口及 多维分析(OLAP) 能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 1.2、 Kylin架构 (1) REST Server REST Server是一套面向应用程序开发的入口点,旨在实现针对Kylin平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过Restful接口实现SQL查询。 (2) 查询引擎(Query Engine) 当cube准备就绪后,查询引擎就能够获取并解析用户查询。它随后会与系统中的其它组件进行交互,从而向用户返回对应的结果。 (3) 路由器(Routing) 在最初设计时曾考虑过将Kylin不能执行的查询引导去Hive中继续执行,但在实践后发现Hive与Kylin的速度差异过大,导致用户无法对查询的速度有一致的期望,很可能大多数查询几秒内就返回结果了,而有些查询则要等几分钟到几十分钟,因此体验非常糟糕。最后这个路由功能在发行版中默认关闭。 (4) 元数据管理工具(Metadata) Kylin是一款元数据驱动型应用程序。元数据管理工具是一大关键性组件

Apache Kylin 目录详解

非 Y 不嫁゛ 提交于 2020-01-29 13:47:13
一、Kylin二进制源码目录解析 bin : shell 脚本,用于启动/停止Kylin,备份/恢复Kylin元数据,以及一些检查端口、获取Hive/HBase依赖的方法等; conf : Hadoop 任务的XML配置文件,这些文件的作用可参考 配置页面 lib : 供外面应用使用的jar文件,例如Hadoop任务jar, JDBC驱动, HBase coprocessor 等. meta_backups : 执行 bin/metastore.sh backup 后的默认的备份目录; sample_cube 用于创建样例 Cube 和表的文件。 spark : 自带的spark。 tomcat : 自带的tomcat,用于启动Kylin服务。 tool : 用于执行一些命令行的jar文件。 二、HDFS 目录结构 Kylin 会在 HDFS 上生成文件,根目录是 “/kylin” (可以在 conf/kylin.properties 中定制),然后会使用 Kylin 集群的元数据表名作为第二层目录名,默认为 “kylin_metadata”。 通常,/kylin/kylin metadata目录下会有这么几种子目录:cardinality, coprocessor, kylin-job id, resources, jdbc-resources. cardinality

Kylin 参数优化经验

删除回忆录丶 提交于 2020-01-26 09:23:11
目录 优化前 OOM 执行时间过长 优化前 kylin执行构建如果因为OOM等原因运行失败后,调整配置参数,无需从头开始构建,kylin有个牛x的功能叫 恢复执行 ,可以从失败的阶段开始 重新执行 ,笔者之前不知道有这个功能,都是重头开始构建,执行到失败的步骤运行时间又很长,试错成本特别高。 OOM Build Cube with Spark阶段OOM 设置参数 kylin.engine.spark-conf.spark.yarn.executor.memoryOverhead=10500 解决问题。 其他配置参数 前缀 影响范围 说明 kylin.source.hive.config-override. Create Intermediate Flat Hive Table Redistribute Flat Hive Table 调整Hive作业的参数,一般不需要修改 kylin.engine.mr.uhc-config-override. Build UHC Dictionary 一般不需要修改 kylin.engine.mr.base-cuboid-config-override. Build Base Cuboid 如果Cube有全局字典,建议通过该参数调大Build Base Cuboid的mapper内存 kylin.engine.mr.config-override

搭建Kylin集群

回眸只為那壹抹淺笑 提交于 2020-01-24 14:45:00
[hadoop@hadoop001 software]$ tar -zxvf apache-kylin-2.6.4-bin.tar.gz -C ../app/ [hadoop@hadoop001 app]$ ln -s apache-kylin-2.6.4-bin kylin 准备Spark包 首先,在Ambari中安装Spark。 [hadoop@hadoop001 app]$ wget http://archive.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz [hadoop@hadoop001 app]$ tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz 三台机器都执行下面命令,这里只以hadoop002为例 [hadoop@hadoop002 app]$ sudo cp spark-2.3.2-bin-hadoop2.7/jars/xercesImpl-2.9.1.jar /usr/hdp/current/spark2-client/jars/ [hadoop@hadoop002 app]$ sudo cp spark-2.3.2-bin-hadoop2.7/jars/commons-configuration-1.6.jar /usr/hdp/current

基于CentOS搭建FTP文件服务实战

扶醉桌前 提交于 2020-01-18 12:27:29
参考教程来自腾讯云开发者实验室: https://cloud.tencent.com/developer/labs/lab/10123 话不多少,进入流程 1. 安装vsftpd   使用 yum 安装 vsftpd yum install vsftpd -y 2. 启动 FTP 服务 service vsftpd start # 查看启动效果 netstat -nltp | grep 21 3. 了解FTP权限配置 vsftpd 的配置目录为 /etc/vsftpd,包含下列的配置文件: vsftpd.conf 为主要配置文件 ftpusers 配置禁止访问 FTP 服务器的用户列表 user_list 配置用户访问控制 4. 编辑 /etc/vsftpd/vsftpd.conf vi /etc/vsftpd/vsftpd.conf 修改如下配置 # 禁用匿名用户 anonymous_enable=NO # 禁止切换根目录 chroot_local_user=YES 5. 重启服务 service vsftpd restart 6. 创建FTP用户(这里以kylin为例,可以自定义) useradd kylin 7. 为用户设置密码 echo "kylinPassword" | passwd kylin --stdin 8. 限制该用户只能通过 FTP 访问服务器,不能登录服务器

Kylin的概述与架构

半城伤御伤魂 提交于 2020-01-16 02:56:25
kylin概述 kylin的产生背景 Apache Kylin的初衷是解决千亿条、万亿条记录的秒级查询问题,关键是打破查询时间随着数据量成线性增长的这个规律 Kylin的工作原理 Apache Kylin的工作原理本质上是MOLAP(Multidimensional Online Analytical Processing)Cube,也就是多维立方体分析。这是数据分析中相当经典的理论,在关系数据库年代就已经有了广泛的应用。 Apache Kylin的工作原理就是对数据模型做Cube预计算,并利用计算的结果加速查询,具体工作过程如下。 指定数据模型,定义维度和度量。 预计算Cube,计算所有Cuboid并保存为物化视图。 执行查询时,读取Cuboid,运算,产生查询结果。 由于Kylin的查询过程不会扫描原始记录,而是通过预计算预先完成表的关联、聚合等复杂运算,并利用预计算的结果来执行查询,因此相比非预计算的查询技术,其速度一般要快一到两个数量级,并且这点在超大的数据集上优势更明显。当数据集达到千亿乃至万亿级别时,Kylin的速度甚至可以超越其他非预计算技术1000倍以上。 Kylin的技术架构 Apache Kylin系统可以分为在线查询和离线构建两部分,技术架构如图所示,在线查询的模块主要处于上半区,而离线构建则处于下半 区 从图可以看出,数据源在左侧,目前主要是Hadoop