Apache Kylin

kylin平台

时光毁灭记忆、已成空白 提交于 2020-03-15 08:09:08
[root @cdh soft]# wget https://archive.apache.org/dist/kylin/apache-kylin-2.6.0/apache-kylin-2.6.0-bin-cdh57.tar.gz [root @cdh soft]# tar -zxf apache-kylin-2.6.2-bin-cdh57.tar.gz [root @cdh soft]# mv apache-kylin-2.6.2-bin-cdh57 kylin /opt/cm-5.12.1/etc/init.d/cloudera-scm-server start /opt/cm-5.12.1/etc/init.d/cloudera-scm-agent start 设置kylin home export KYLIN_HOME=/root/soft/kylin [root @cdh kylin]# cd conf [root @cdh conf]# vi kylin.properties kylin.server.cluster-servers=localhost:7070 [root@cdh bin]# ./check-env.sh [root@cdh bin]# cd .. ./sample.sh [root@cdh kylin]# bin/download-spark.sh

CDH5.12整合Kylin2.1

大憨熊 提交于 2020-03-01 05:10:41
1. 获取安装包 http://kylin.apache.org/download/ 下载:apache-kylin-2.1.0-bin-cdh57.tar.gz 上传:/opt 解压:tar zxvf apache-kylin-2.1.0-bin-cdh57.tar.gz 2. 配置环境变量 vi /etc/profile export KYLIN_HOME=/opt/apache-kylin-2.1.0-bin-cdh57 export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29 export HBASE_HOME=/opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/lib/hbase export HIVE_HOME=/opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/lib/hive export HIVE_CONF=/opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/lib/hive/conf export HADOOP_CMD=/opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/lib

Kylin设置JDBC配置greenplum数据源

↘锁芯ラ 提交于 2020-02-28 23:52:53
Kylin设置JDBC配置greenplum数据源 kylin最开始的时候支持hive和kafka作为数据源,从2.3.0版本之后开始支持JDBC作为第第三种数据源。用户可以自定义的数据库或者数据仓库到自己的kylin集群。比如,mysql,postgresql,greenplum等。 支持原理 需要了解到的是,kylin设置完jdbc作为数据源,是通过sqoop来实现的,他并不是摒弃了底层的hive,而是使用sqoop将你配置的数据源的数据抽取到hive中,kylin通过在hive中生成的表来做cube的预计算。计算完之后,再将导入的临时数据删除。 配置JDBC数据源 首先,在kylin集群安装完之后,自行安装sqoop。注意sqoop的1.0和2.0版本相去甚远,一般在生产环境中不会使用2.0版本,同时需要注意sqoop和hbase的版本兼容问题,一般是sqoop1.x+hbase0.x。 第二步,准备jdbc driver。需要将你要配置的数据库的JDBC Driver配置搭配kylin和sqoop中,路径$KYLIN_HOME/ext和$SQOOP_HOME/lib。注意:mysql的驱动可以不加载,kylin2.3.1已经集成。 第三步,配置kylin.properties文件。 Mysql样例: ################MYSQL #kylin.source

【入门】Kylin 基本原理及概念

点点圈 提交于 2020-02-27 11:43:18
Kylin版本:2.5.1 前言 膜拜大神, Kylin 作为第一个由国人主导并贡献到 Apache 基金会的开源项目,堪称大数据分析界的“ 神兽 ”。所以我也是抓紧时间来学习 Kylin ,感受 Kylin 所带来的魅力。 一、Kylin简介 Kylin 的出现就是为了解决大数据系统中 TB 级别数据的数据分析需求,它提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析( OLAP )能力以支持超大规模数据,它能在亚秒内查询巨大的 Hive 表。其核心是预计算,计算结果存在 HBase 中。 作为大数据分析神器,它也需要站在巨人的肩膀上,依赖 HDFS 、 MapReduce/Spark 、 Hive/Kafka 、 HBase 等服务。 <!-- more --> 二、Kylin优势 Kylin 的主要优势为以下几点: 可扩展超快 OLAP 引擎: Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计 Hadoop ANSI SQL 接口: Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能 交互式查询能力:通过 Kylin ,用户可以与 Hadoop 数据进行亚秒级交互,在同样的数据集上提供比 Hive 更好的性能 多维立方体( MOLAP Cube ):用户能够在 Kylin 里为百亿以上数据集定义数据模型并构建立方体

Apache Kylin 目录详解

南楼画角 提交于 2020-02-27 11:35:48
一、Kylin二进制源码目录解析 bin : shell 脚本,用于启动/停止Kylin,备份/恢复Kylin元数据,以及一些检查端口、获取Hive/HBase依赖的方法等; conf : Hadoop 任务的XML配置文件,这些文件的作用可参考 配置页面 <!--more--> lib : 供外面应用使用的jar文件,例如Hadoop任务jar, JDBC驱动, HBase coprocessor 等. meta_backups : 执行 bin/metastore.sh backup 后的默认的备份目录; sample_cube 用于创建样例 Cube 和表的文件。 spark : 自带的spark。 tomcat : 自带的tomcat,用于启动Kylin服务。 tool : 用于执行一些命令行的jar文件。 二、HDFS 目录结构 Kylin 会在 HDFS 上生成文件,根目录是 “/kylin” (可以在 conf/kylin.properties 中定制),然后会使用 Kylin 集群的元数据表名作为第二层目录名,默认为 “kylin_metadata”。 通常,/kylin/kylin_metadata目录下会有这么几种子目录:cardinality, coprocessor, kylin-job_id, resources, jdbc-resources.

Ambari 集成 Apache Kylin 服务(适配于 2.6.x / 2.7.x 版本)

試著忘記壹切 提交于 2020-02-26 22:05:40
一、前言 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 如果需要将Kylin服务受控于Ambari管控,那就需要集成服务了。 二、集成服务 <!--more--> 关于ambari-Kylin的Python脚本已上传至github,具体地址参见: 传送门 使用该项目的前提条件 ambari主节点 上安装 httpd 服务并开启, 将Kylin和Nginx的源码包 放到 /var/www/html/kylin 目录下。(由于源码包太大, github 上传不了,请到文章底部关注 我的微信公众号 ,回复 ambari-kylin 获取云盘链接。也感谢您的关注!) 在 ambari 集群 各主机 已安装 wget 命令 适配 CentOS-7 64 位系统, CentOS-6 64 位系统(使用 CentOS-6 系统,启动 nginx 时可能会报错, 下文会粘出解决方法 ),其他系统没有测试 适配于 ambari2.6 + hdp 2.6.4.0-91 ,【ambari2.7(待适配)】 版本说明: Kylin 2.5.1 + Nginx 1.8.1 部署步骤:

分布式分析引擎——Kylin

时光怂恿深爱的人放手 提交于 2020-01-07 01:15:45
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Apache Kylin 是一个开源的分布式 分析引擎 ,提供 Hadoop/Spark 之上的 SQL 查询接口及 多维分析 ( OLAP )能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在 亚秒 内查询巨大的 Hive 表。 Cube构建流程 创建中间表 将中间表的数据均匀分配到不同的文件(防止数据倾斜) 创建字典表 构建cube 形成HBase的K-V结构 将cube data转化成Hfile格式并导入HBase Cube构建算法 逐层构建算法(layer)(中心开花) 每个层级的计算是基于它上一层级的结果来计算的。 每一轮的计算都是一个 MapReduce 任务,且串行执行;一个 N 维的 Cube ,至少需要 N 次 MapReduce Job 。 优点: 此算法充分利用了 MapReduce 的优点,处理了中间复杂的排序和 shuffle 工作,故 而算法代码清晰简单,易于维护; 受益于 Hadoop 的日趋成熟,此算法非常稳定,即便是集群资源紧张时,也能保证 最终能够完成。 缺点: 当 Cube 有比较多维度的时候,所需要的 MapReduce 任务也相应增加;由于 Hadoop的任务调度需要耗费额外资源,特别是集群较庞大的时候,反复递交任务造成的额外开销会相当可观; 由于

Python + Apache Kylin 让数据分析更加简单!

隐身守侯 提交于 2019-12-30 10:55:50
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 现如今,大数据、数据科学和机器学习不仅是技术圈的热门话题,也是当今社会的重要组成。数据就在每个人身边,同时每天正以惊人的速度快速增长,据 福布斯 报道: 到 2025 年,每年将产生大约 175 个 Zettabytes 的数据量。 目前我们所熟知的行业都越来越依赖于对大数据的高级处理和分析,如金融、医疗保健、农业、能源、媒体、教育等所有重要的社会发展行业,然而这些庞大的数据集让数据分析、数据挖掘、机器学习和数据科学面临了巨大的挑战。 数据科学家和分析师在尝试对于海量数据的分析时会面临数据处理流程复杂、报表查询缓慢等问题,但在实践中发现可通过 Apache Kylin 与 Python 的集成解决这一大难题,从而帮助分析师和数据科学家最终获得对大规模(TB 级和 PB 级)数据集的自由访问。 机器学习和数据科学面临的挑战 机器学习(ML)工程师和数据科学家在对大数据运行计算时遇到的主要挑战之一是处理更大容量的数据时带来的更大的计算复杂度 。 因此,随着数据集的扩大,即使是微不足道的操作也会变得昂贵。此外,随着数据量的增加,算法性能越来越依赖于用于存储和移动数据的技术架构,同时数据量越大,并行数据结构,数据分区和存储以及数据复用变得更加重要。 Apache Kylin 如何解决这些挑战? Apache Kylin

BI方案用哪家?现在早已是国产BI工具的天下了!

南笙酒味 提交于 2019-12-11 13:52:06
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 最近有一些粉丝问我,公司要上BI了,tableau、powerbi、SAP Business Objects等等哪个更好,根本没咱们国产BI工具什么事儿。 好像说到上BI,很多人的第一反应都是上国外的,觉得国外的BI的厂商发展的那么早,国产BI工具肯定不如国外BI工具,如果你有这个想法,那就大错特了。在BI商业智能这个赛道,国产BI工具可以说是不输国外的。 当然,这里的“跑赢”并不是说在各方面完胜,国外BI工具在技术上确实更加成熟,毕竟早发展这么多年,每个工具也都有各有自己的优劣,无法用一句话去说明哪个工具最好用。但是基于中国这个大市场环境下,国内企业选择国产BI工具是更优的选择。并且在《IDC2018年中国商业智能软件市场追踪报告》中,领跑第一位的也是国内某BI厂商。 作为一个做了十多年BI项目的“老BI人”,在这方面也算有点经验,下面就来给大家说道说道,为什么国产BI工具是国内企业的更优选择。 1.从工具与企业的需求契合度来看,国产BI工具更契合中国企业的需求 中国的企业类型丰富多样,在企业IT建设的建设方式上也是各有千秋。数据库、数据的规范性、系统的开发集成需求也是各不相同。BI除了需要支持各种类型的数据库和数据源,还要支持Hadoop、Kylin、Derby、Gbase一类的大数据平台以及各种数据仓库

iOS App冷启动治理:来自美团外卖的实践

人盡茶涼 提交于 2019-12-09 12:51:15
一、背景 冷启动时长是App性能的重要指标,作为用户体验的第一道“门”,直接决定着用户对App的第一印象。美团外卖iOS客户端从2013年11月开始,历经几十个版本的迭代开发,产品形态不断完善,业务功能日趋复杂;同时外卖App也已经由原来的独立业务App演进成为一个平台App,陆续接入了闪购、跑腿等其他新业务。因此,更多更复杂的工作需要在App冷启动的时候被完成,这给App的冷启动性能带来了挑战。对此,我们团队基于业务形态的变化和外卖App的特点,对冷启动进行了持续且有针对性的优化工作,目的就是为了呈现更加流畅的用户体验。 二、冷启动定义 一般而言,大家把iOS冷启动的过程定义为:从用户点击App图标开始到appDelegate didFinishLaunching方法执行完成为止。这个过程主要分为两个阶段: T1:main()函数之前,即操作系统加载App可执行文件到内存,然后执行一系列的加载&链接等工作,最后执行至App的main()函数。 T2:main()函数之后,即从main()开始,到appDelegate的didFinishLaunchingWithOptions方法执行完毕。 然而,当didFinishLaunchingWithOptions执行完成时,用户还没有看到App的主界面,也不能开始使用App。例如在外卖App中,App还需要做一些初始化工作,然后经历定位