Apache Kylin

从 ES 到 Kylin,斗鱼客户端性能分析平台进化之旅

家住魔仙堡 提交于 2019-12-07 19:22:08
游戏直播行业龙头斗鱼在 2019 年 Q2 的平均 MAU 再创新高,达到 1.628 亿。每天,超大量的用户使用斗鱼各客户端参与线上互动,斗鱼需要对客户端采集到的性能数据进行统计和分析,开发出具有多维度分析图表和数据监控的 APM (Application Performance Monitoring,应用性能监控) 平台。最初,斗鱼采用了市面上非常流行的 Elasticsearch (简称 ES)实时聚合实现。运行一段时间后,基于 ES 的方案面临用户查询时间长、数据精度丢失等问题,斗鱼采用 Apache Kylin 替换 Elasticsearch, 对 APM 平台中存在的问题进行优化。不试不知道,一试吓一跳。 一、背景 斗鱼是一家面向大众用户的在线直播平台,每天都有超大量的终端用户在使用斗鱼各客户端参与线上互动。伴随业务的迅猛发展,斗鱼需要对客户端采集到的性能数据进行统计和分析,开发出具有多维度分析图表和数据监控的 APM (Application Performance Monitoring,应用性能监控) 平台。 针对不同的客户端采集的不同数据,我们需要将各种维度之间相互组合并聚合,最终产出的数据变成指标在图表中展示。例如:对在时间、地域、网络环境、客户端以及 CDN 厂商等维度聚合下的各项指标情况进行 多维度分析 ,包括客户端网络性能(包含完整请求耗时,请求耗时

Kylin集群部署和cube使用

眉间皱痕 提交于 2019-12-07 08:58:39
Kylin集群部署和cube使用 安装集群环境 节点 Kylin节点模式 Ip 内存 磁盘 Node1 All 192.167.71.11 2G 80G Node2 query 192.168.71.12 1.5G 80G Node3 query 192.168.71.13 1.5G 80G Kylin工作原理如下: 集群时间同步 Ntp服务自行设置 安装kylin之前所需要的环境 Hadoop-2.7.4 Hbase-1.4.0 Spark-2.2.0 可选 Zookeepr-3.3.6 Hive-2.1.1 使用mysql存放元数据,远程模式安装 Kylin-2.3.1 Hadoop环境,HBASE,zookeeper还有hive自行安装,集群环境变量如下: ##################HADOOP export HADOOP_HOME=/home/zhouwang/hadoop-2.7.4 export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_CONF_DIR=$HADOOP_HOME/etc

KYLIN访问远程hive和hbase环境

独自空忆成欢 提交于 2019-12-06 16:37:35
KYLIN访问远程hive和hbase环境 思路:在kylin服务器上配置所需环境的client;包括hadoop,hive,hbase 准备远程hadoop集群,hive环境,hbase环境的配置文件,替换掉对应客户端的配置文件。 Hadoop: Hive: Hbase: 准备与远程环境一致的安装包(用来安装client),解压安装,使用上一步准备的配置文件替换对应安装包中的配置。 配置环境变量 修改kylin 服务器的hosts 文件,以便能够识别hadoop 集群ip 和域名 Kylin 安装配置见博客《Kylin 集群部署与cube 使用》 来源: oschina 链接: https://my.oschina.net/u/3323164/blog/2048767

社区活动 | Apache Kylin Meetup 北京站

萝らか妹 提交于 2019-12-06 10:25:18
11 月 16 日,Apache Kylin Meetup 即将走进北京!本次 Meetup 由 Apache Kylin 联合滴滴开源举办,邀请到来自滴滴、微众银行、一点资讯以及 Kyligence 等公司的技术专家为大家呈现 Kylin 与微众银行开源的大数据计算中间件 Linkis 的精彩应用案例与实践。感兴趣的小伙伴可以扫描文末二维码报名! 活动议程 13:00-13:30 活动签到 13:30-14:10 Talk 1:《Kylin 引擎在滴滴的应用及实践》 14:10-14:50 Talk 2:《微众银行开源计算中间件 Linkis-助力 Kylin 强化连接层治理的探索》 14:50-15:10 茶歇 15:10-15:50 Talk 3:《Kylin 用户行为分析的原理和使用》 15:50-16:30 Talk 4:《Kylin 在一点资讯的实践》 16:30-17:00 会后交流与合影 演讲嘉宾 《Kylin 引擎在滴滴的应用及实践》 王小静 滴滴出行专家工程师 个人简介: 有多年数据中台相关产品的架构经验,曾负责滴滴大数据任务调度系统、数据资产、数梦底层调度执行引擎的架构和落地。目前为滴滴 Kylin 引擎负责人。 演讲摘要: Kylin 引擎在滴滴的应用和架构 滴滴全局字典构建最新版本(理论无论多少字典列,每列基数数十亿均可恒定在 15 分钟以内完成)

如何在 1 秒内做到大数据精准去重?

对着背影说爱祢 提交于 2019-12-06 10:25:07
去重计数在企业日常分析中应用广泛,如用户留存、销售统计、广告营销等。海量数据下的去重计数十分消耗资源,动辄几分钟,甚至几小时,Apache Kylin 如何做到秒级的低延迟精确去重呢? 1、什么是去重计数 去重计数是数据分析中的常用分析函数,指查询某列中不同值的个数,在 SQL 中的函数是 count(distinct col)。它与 count(col) 函数的区别在于有一个 distinct 描述符,意思是去掉重复值,因此称为去重计数。 去重计数使用广泛,例如:在网站/app 使用统计中,PV/UV 是最常用的指标,其中 UV(unique visitor,独立访问用户)就是去重后的数字,即同一个用户的所有访问记录只计入一次。对于网站/app 所有者,PV (page view)代表的使用量的高低,UV 代表用户的多少,两个数字都很重要;只有结合两个数字一起,才能更加准确地了解网站/app的用户、用量增长情况。 2、大数据上去重运算的难点与挑战 去重运算因为涉及到数值的比较,因此它的计算要比单纯的 PV 计数要略复杂。当数据量不大的时候,单机运行的性能或许还能忍受。但是当数据量渐长的时候,所花的时间越来越长,依靠单节点处理难以满足,此时就需要依靠分布式框架如 MapReduce 或 Spark 等并行处理,把大数据分而治之。 学习过 MapReduce 的朋友,一定对它的

系列课程| 原厂老师带你入门大数据OLAP神兽「Kylin」

不羁岁月 提交于 2019-12-06 07:52:33
正在调研 OLAP 还在纠结是否尝试 Kylin ? 刚接触 Kylin 还不知道怎么使用? 作为开源的分布式分析引擎,Apache Kylin™ 提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,与多种数据可视化工具(如 Tableau、Power BI 等)的整合能力,已被 eBay、腾讯、美团点评、滴滴、OLX 集团等全球上千家企业采用,吸引了越来越多的关注。 为了让大家更好地了解 Kylin,我们特别邀请到了 Kyligence 公司(由 Kylin 核心团队创立)的培训主管、拥有 10 余年培训经验的大数据讲师 Sean Zong,带来 「Kylin 初入门系列课程」 ,帮助大家 快速体验 Kylin 的亚秒级查询,系统入门 Kylin 的核心特性和优化技巧。 同时,为了让全国各地乃至全球的 Kyliner 都能参与学习,本系列课程将采用 免费线上直播 的形式。 Kylin 初入门系列课程 1)3 步快速体验 Kylin 亚秒级查询 2)查询性能与资源消耗,怎么平衡? 3)如何加速业务指标分析 ...... 首期课程就在本周 3 步快速体验 Kylin 亚秒级查询 课程时间 11 月 29 日(本周五) 14:00 - 15:00 课程亮点 用最简步骤秒出大数据分析成果: 全程Live Demo,权威解读 Cube

你离可视化酷炫大屏只差一套 Kylin + Davinci

六月ゝ 毕业季﹏ 提交于 2019-12-06 07:52:09
Kylin 提供与 BI 工具的整合能力,如 Tableau,PowerBI/Excel,MSTR,QlikSense,Hue 和 SuperSet。但就可视化工具而言,Davinci 良好的交互性和个性化的可视化大屏展现效果,使其与 Kylin 的结合能让大部分用户有更好的可视化分析体验。 Davinci 是国内开源的大数据可视化平台,是一款基于 web,提供一站式数据可视化解决方案的平台,Java 系。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。详情请访问其官方网站(https://edp963.github.io/davinci/)。 下载与安装 宜信在 2018 年 4 月发布了 Davinci 的第一个正式版本 V0.1.0,目前为止 Davinci 的正式发布版本是 v0.2.1,其次就是 v0.3 系列的测试版。Davinci 自 0.2.1 版本之后开始支持对 Kylin 的连接。通过对比可以发现,0.2 版本只是简单地实现了数据可视化报表,其功能不全,用户交互性差。但随后的 0.3 版本在不断地完善平台功能,可以说使用过程中体验感良好,功能比较齐全。并且官方在不断地进行版本的更新中,所以对于初次接触 Davinci 和想拥有自定义仪表盘和大屏效果的人群,更建议使用最新版 v0.3 系列。

3000 字详解 Kylin 查询缓存重构

自古美人都是妖i 提交于 2019-12-05 06:59:17
在过去,由于粗粒度缓存过期策略和外部缓存的缺乏,查询缓存在 Kylin 中的使用效率不高。由于激进的缓存过期策略,有用的缓存经常被不必要地清理。因为查询缓存存储在本地服务器中,它们因而不能在服务器之间共享。同时,由于本地缓存的大小限制,并不是所有有用的查询结果都可以被缓存。 针对这些不足,我们使用签名检查来实现新的查询缓存失效策略,并引入 memcached 作为 Kylin 的分布式缓存,使 Kylin 服务器能够在服务器之间共享缓存。同时添加 memcached 服务器来扩展分布式缓存也是很容易的。 这些功能由 eBay Kylin 团队提出和开发,在此非常感谢他们的贡献。 相关的 JIRA KYLIN-2895 Refine Query Cache: https://issues.apache.org/jira/browse/KYLIN-2895 KYLIN-2899 Introduce segment level query cache:https://issues.apache.org/jira/browse/KYLIN-2899 KYLIN-2898 Introduce memcached as a distributed cache for queries:https://issues.apache.org/jira/browse/KYLIN-2898 KYLIN

系列课程| 原厂老师带你入门大数据OLAP神兽「Kylin」

有些话、适合烂在心里 提交于 2019-12-03 18:13:32
正在调研 OLAP 还在纠结是否尝试 Kylin ? 刚接触 Kylin 还不知道怎么使用? 作为开源的分布式分析引擎,Apache Kylin™ 提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,与多种数据可视化工具(如 Tableau、Power BI 等)的整合能力,已被 eBay、腾讯、美团点评、滴滴、OLX 集团等全球上千家企业采用,吸引了越来越多的关注。 为了让大家更好地了解 Kylin,我们特别邀请到了 Kyligence 公司(由 Kylin 核心团队创立)的培训主管、拥有 10 余年培训经验的大数据讲师 Sean Zong,带来 「Kylin 初入门系列课程」 ,帮助大家 快速体验 Kylin 的亚秒级查询,系统入门 Kylin 的核心特性和优化技巧。 同时,为了让全国各地乃至全球的 Kyliner 都能参与学习,本系列课程将采用 免费线上直播 的形式。 Kylin 初入门系列课程 1)3 步快速体验 Kylin 亚秒级查询 2)查询性能与资源消耗,怎么平衡? 3)如何加速业务指标分析 ...... 首期课程就在本周 3 步快速体验 Kylin 亚秒级查询 课程时间 11 月 29 日(本周五) 14:00 - 15:00 课程亮点 用最简步骤秒出大数据分析成果: 全程Live Demo,权威解读 Cube

你离可视化酷炫大屏只差一套 Kylin + Davinci

旧城冷巷雨未停 提交于 2019-12-03 18:11:42
Kylin 提供与 BI 工具的整合能力,如 Tableau,PowerBI/Excel,MSTR,QlikSense,Hue 和 SuperSet。但就可视化工具而言,Davinci 良好的交互性和个性化的可视化大屏展现效果,使其与 Kylin 的结合能让大部分用户有更好的可视化分析体验。 Davinci 是国内开源的大数据可视化平台,是一款基于 web,提供一站式数据可视化解决方案的平台,Java 系。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。详情请访问其官方网站(https://edp963.github.io/davinci/)。 下载与安装 宜信在 2018 年 4 月发布了 Davinci 的第一个正式版本 V0.1.0,目前为止 Davinci 的正式发布版本是 v0.2.1,其次就是 v0.3 系列的测试版。Davinci 自 0.2.1 版本之后开始支持对 Kylin 的连接。通过对比可以发现,0.2 版本只是简单地实现了数据可视化报表,其功能不全,用户交互性差。但随后的 0.3 版本在不断地完善平台功能,可以说使用过程中体验感良好,功能比较齐全。并且官方在不断地进行版本的更新中,所以对于初次接触 Davinci 和想拥有自定义仪表盘和大屏效果的人群,更建议使用最新版 v0.3 系列。