Apache Kylin

如何使用kylin提高Tableau访问速度

限于喜欢 提交于 2020-10-07 04:33:24
Tableau是OLAP领域应最广泛的大数据自助分析可视化工具。本文介绍如何使用kylin提高Tableau访问速度, Kylin + Tableau 实现进行亚秒级可视化数据展现。 一、Tableau desktop版本必须是2018.3及其之后的版本 Tableau desktop下载地址: https://www.tableau.com/support/releases/desktop/2018.3.11#esdalt 二、安装Kylin jdbc jar包 将Kylin的jdbc jar包拷贝到相应位置即可。 jar包下载地址: https://www.apache.org/dyn/closer.cgi/kylin/apache-kylin-3.1.0/apache-kylin-3.1.0-bin-hbase1x.tar.gz ,kylin-jdbc-3.1.0.jar 在“lib” 目录下. 操作系统 放置目录 WINDOWS C:\Program Files\Tableau\Drivers LINUX /opt/tableau/tableau_driver/jdbc MAC ~/Library/Tableau/Drivers 三、Tableau 使用 打开Tableau desktop——》添加数据源——》其他数据库(JDBC) 根据要求填写数据库和架构 注意: 1

AnalyticDB实现和特点浅析

北慕城南 提交于 2020-10-06 01:39:05
目录 AnalyticDB介绍与背景 AnalyticDB详细解析 架构设计 数据分区 读写分离和读写流程 其他特性介绍 混合(列-行)存储引擎 索引 小结 本篇主要是根据AnalyticDB的论文,来讨论AnalyticDB出现的背景,各个模块的设计,一些特性的解析。可能还会在一些点上还会穿插一些与当前业界开源实现的比对,希望能够有一个更加深入的探讨。OK,那我们开始吧。 AnalyticDB介绍与背景 要说AnalyticDB,那起码得知道它是干什么的。这里直接贴下百度百科的介绍: AnalyticDB是阿里云自主研发的一款实时分析数据库,可以毫秒级针对千亿级数据进行即时的多维分析透视。 简单地说,就是实时OLAP型数据库,它的对标产品是Apache Kylin,Apache Druid,Clickhouse这些。然后AnalyticDB的特点, 包括高并发实时摄入数据,兼容Mysql协议,无需预计算即可有的极快响应时间,多种数据源接入,大规模集群管理等 。好吧,这几个特点都很官方,不急,接下来会逐渐讨论各个点。 然后介绍下AnalyticDB的背景。 首先先说说传统的OLAP型数据仓库,以往构建OLAP型数据仓库通常都是采用离线模式, 即在晚上设置定时任务将前一天的数据同步到数据仓库中,第二天数据分析师或报表工具就可以根据数据产出分析结果 。但这样的问题是数据延迟太高了

友链

删除回忆录丶 提交于 2020-10-04 04:53:43
下面是我的友链啦~~ 外校大佬 _redness 魔法少女 Kylin_Seven 宠辱不惊,闲看庭前花开花落;去留无意,任随天边云卷云舒 Areds 不忘初心,方得使终 Quaint 技术宅拯救世界 校内巨佬们 wxyww 让过去过去,让未来到来 复杂的哈皮狗 人这么弱,有什么资格颓废 ̄へ ̄ 苡焮 rp+++++ pyyyyyy 末将于禁,愿为曹家世代赴汤蹈火。 hwim 超级暖心而且帅气的大哥哥 自为风月马前卒 知名OI博主 Q-A-S 蓝太阳! 口昭寿 在下一介船夫 >w<。 xun薰 滑稽(●'◡'●) Luckyblock 驻足现世,心存幻想。 fastle 垆边人似月 皓腕凝霜雪 SovietPower 青春无你,何以为青春。 whymhe 可爱的小明 Echo宝贝儿 嘟噜噜,大一颓废狗~ lzpclxf 唯有琴音深入我心 yu_xuan 纵使日薄西山. _Destiny 星海横流,岁月成碑。 Aliemo 醉眼耐薰红杏色,韶华催换绿杨丝。 良月澪二 月光深处,便是你轮回尽头 南條キミツ 比你强的人都在努力,比你弱的人也没有放弃 另一个我 且视他人之疑目如盏盏鬼火,大胆地去走你的夜路. 来源: oschina 链接: https://my.oschina.net/u/4313107/blog/4336989

Linux常用基础命令

こ雲淡風輕ζ 提交于 2020-08-18 10:18:41
1、查看Linux版本 [root@localhost ~]# cat /proc/version Linux version 3.10.0-862.el7.x86_64 (builder@kbuilder.dev.centos.org) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-28) (GCC) ) #1 SMP Fri Apr 20 16:44:24 UTC 2018 [root@localhost ~]# cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core) 2、进程状态查看 top / ps -aux / vmstat 5 / htop / nmon 显式进程的信息 root@10.24.40.10:~/T1# pwdx PID 9545: /mnt/GSPCloud/gsp20190522_mss/runtime/libs root@10.24.40.10:~/T1# ls -l /proc/PID kill -9 pid 根据进程名查找指定进程: ps -ef|grep processname 内存使用查看: free / top / htop su - 切换用户 sudo 以root用户执行命令 3、网络监控 netstat -anp|grep pid

滴滴HBase大版本滚动升级之旅

寵の児 提交于 2020-08-14 10:57:27
桔妹导读:滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级,用户无感知。新版本为我们带来了丰富的新特性,在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文,希望对大家有所帮助。 1. 背景 目前HBase服务在我司共有国内、海外共计11个集群,总吞吐超过1kw+/s,服务着地图、普惠、车服、引擎、金融等几乎全部部门与业务线。 然而有一个问题持续困扰着我们:版本较社区落后较多——HBase线上集群使用0.98版本,而社区目前最新的release版本为2.3。这为我们的工作带来了很多额外的掣肘与负担,主要包括以下几点: 新特性引入成本极高: 0.98版本可以算是HBase第一个稳定版本,但过于老旧,社区已经不再维护。想要backport新特性难度越来越大。 自研patch维护成本较高: 我们基于0.98版本有数十个大大小小的自研patch,涵盖了从label分组、ACL鉴权等大的feature到监控体系建设、审计日志优化等Improvement以及各种bug fix。这些patch或是新版本中已支持但和我们实现有差异,或是由于版本差异过大无法合入社区,而且随着时间线的拉长,这种问题只会进一步恶化。 上层组件对于HBase存在一定需求: 得益于活跃的HBase生态圈,目前我们的用户使用形态也比较丰富,OLAP

Spark SQL 物化视图原理与实践

北战南征 提交于 2020-08-13 15:33:33
物化视图作为一种预计算的优化方式,广泛应用于传统数据库中,如Oracle,MSSQL Server等。随着大数据技术的普及,各类数仓及查询引擎在业务中扮演着越来越重要的数据分析角色,而物化视图作为数据查询的加速器,将极大增强用户在数据分析工作中的使用体验。本文将基于 Spark SQL(2.4.4) + Hive (2.3.6), 介绍物化视图在 Spark SQL中的实现及应用。 文章目录 1 什么是物化视图 2 物化视图现状及实践目标 2.1 SparkSQL目前有哪些预计算相关的优化呢? 3 物化视图设计详解 3.1 SparkSQL + Hive 整合 3.1.1 为什么选择Hive2.3 4 Plan Rewrite 设计 4.1 设计概览 4.2 优化步骤简介 4.3 优化过程中的问题 4.3.1 列相等问题 4.3.2 条件匹配问题 4.3.3 表达式匹配问题 4.3.4 多表查询问题 4.3.5 聚合函数问题 4.3.6 多个物化视图匹配问题 5 物化视图实战 5.1 测试用的查询 5.2 测试用的物化视图 5.3 逻辑计划比较 5.4 Spark UI统计比较 5.5 性能数据比较 6 物化视图 VS Kylin 6.1 Kylin on HBase 6.2 Kylin on Parquet 7 总结 8 参考资料 什么是物化视图

【科创人独家】Kyligence韩卿:立志做出中国自己的全球顶级数据平台

。_饼干妹妹 提交于 2020-08-13 10:26:29
2016年初,Kyligence成立。这次创业,不只是一次追求商业成功的尝试,更承载着韩卿本人怀揣多年的信念: 在国际基础软件领域立足并领导行业。 从中国来,到全球去 韩卿讲述了对自己产生了巨大影响的三段经历 一. 韩卿大学毕业后的第一份工作就职于浙大中控。浙大中控承载着一份重要的历史使命:彼时,中国石油石化、水泥、食品等诸流程行业的自动化流程控制领域几乎完全被国外垄断,“建一家石化厂,霍尼韦尔、西门子一报价就是几十亿随便开”。韩卿至今还能记得入职时浙大中控技术负责人在新人欢迎演讲上提到的一个细节:“我们一做出来,老外的报价就从以亿为单位,降到了跟我们的产品一个价格,这不就是欺负中国人吗?”最终,浙大中控打破了进口产品垄断的局面,完成了化工行业自动化控制领域的国产化替代。这段经历让韩卿有别于许多提倡技术无国界的技术人, “同样的东西,是不是中国人做的,是不是中国的,其中的差别客观存在。” 二. 离开浙大中控后,韩卿的第二份工作,是在上海一家软件销售代理公司,销售IBM等国外企业的软件产品。“拿着外国的软件服务国内的企业,中国IT服务业当年就是这么发展起来的。”在那几年时间里, 技术出身的韩卿既兴奋又痛苦,兴奋于自己能够与国际顶级IT厂商合作、不断为客户创造价值,痛苦在于“都是给别人做嫁衣裳,无法掌握核心技术”。 即便偶尔遇到国内企业拿着国内产品参与竞标,往往也被IBM

kylin -- 入门实战演练!!!

╄→гoц情女王★ 提交于 2020-08-11 15:44:32
按照日期统计订单总额/总数量(Kylin方式) (测试资源请见kylin资源包!) 要使用Kylin进行OLAP分析,需要按照以下方式来进行。 1、创建项目(Project) 2、创建数据源(DataSource) 指定有哪些数据需要进行数据分析 3、创建模型(Model) 指定具体要对哪个事实表、那些维度进行数据分析 4、创建立方体(Cube) 指定对哪个数据模型执行数据预处理,生成不同维度的数据 5、执行构建、等待构建完成 6、再执行SQL查询,获取结果 从Cube中查询数据 操作步骤 创建项目(Project) 创建数据源(DataSource) 将Hive中的表都导入到Kylin中 在添加表名中,指定数据库名 itcast_kylin_dw.dim_channel,itcast_kylin_dw.dim_product,itcast_kylin_dw.dim_region,itcast_kylin_dw.dw_sales 或 点击下载按钮进入数据库进行选择!推荐!!! 创建模型(Model) 1、 指定模型名称 2、 指定事实表 3、 指定维度表 4、 指定待分析的指标 5、 指定分区和过滤条件 创建立方体(Cube) 1、选择数据模型 2、指定维度 3、指定度量 4、指定刷新设置 5、指定执行引擎 执行构建 执行SQL语句分析 来源: oschina 链接: https:

锐文科技智能网卡xNIC-200/400在国产服务器测试性能报告

人走茶凉 提交于 2020-08-11 13:21:54
锐文科技的xNIC系列智能网卡为自主研发,具有自主知识产权的国产智能网卡。锐文在对国产CPU飞腾的适配与支持上做了大量的工作,也得到了飞腾CPU厂家的大力支持。锐文测试过的飞腾CPU服务器厂商有飞腾自制的测试服务器,长城服务器和宝德服务器。 测试平台搭建使用第三方测试工具,测试平台搭建如图1所示 图1:基于飞腾CPU服务器的测试平台 飞腾CPU(ARM)服务器硬件配置: 服务器 192.168.xxx.xxx 操作系统 Kylin 4.0.2 或者centos 7.5.1804 CPU 国产飞腾FT2000+处理器(64个Core,2.0GHz) 系统内存 默认64GB DDR4 EEC 内存或者128G或者256G 双口万兆网卡 锐文xNIC-200/400 智能网卡 硬盘 250G SSD 在DPDK下,1-4队列性能测试数据(单口收发)测试带宽数据如图2所示。 图2: 基于飞腾CPU服务器的带宽测试报告(单口收发) 在DPDK下,1-4队列性能测试数据(双口收发)测试带宽数据如图3所示。 图3: 基于飞腾CPU服务器的带宽测试报告(双口收发) 如有对国产CPU及国产服务器网络适配及加速的需求, 欢迎联系sales@raymax.net 。 来源: oschina 链接: https://my.oschina.net/u/4390740/blog/4460915

滴滴HBase大版本滚动升级之旅

我是研究僧i 提交于 2020-08-11 07:32:06
桔妹导读:滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级,用户无感知。新版本为我们带来了丰富的新特性,在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文,希望对大家有所帮助。 1. 背景 目前HBase服务在我司共有国内、海外共计11个集群,总吞吐超过1kw+/s,服务着地图、普惠、车服、引擎、金融等几乎全部部门与业务线。 然而有一个问题持续困扰着我们:版本较社区落后较多——HBase线上集群使用0.98版本,而社区目前最新的release版本为2.3。这为我们的工作带来了很多额外的掣肘与负担,主要包括以下几点: 新特性引入成本极高: 0.98版本可以算是HBase第一个稳定版本,但过于老旧,社区已经不再维护。想要backport新特性难度越来越大。 自研patch维护成本较高: 我们基于0.98版本有数十个大大小小的自研patch,涵盖了从label分组、ACL鉴权等大的feature到监控体系建设、审计日志优化等Improvement以及各种bug fix。这些patch或是新版本中已支持但和我们实现有差异,或是由于版本差异过大无法合入社区,而且随着时间线的拉长,这种问题只会进一步恶化。 上层组件对于HBase存在一定需求: 得益于活跃的HBase生态圈,目前我们的用户使用形态也比较丰富,OLAP