kyligence

Kylin大数据分析神兽

天涯浪子 提交于 2019-12-23 21:58:28
apache版本安装 安装 hbase-1.2.11-bin.tar.gz 安装 hive-2.1.0 安装 hadoop-2.6.0-cdh 安装 zookeeper-3.4.12 安装 apache-kylin-2.0.0-bin-hbase1x.tar.gz 注意:cdh环境请下载其他版本 配置下环境变量直接启动即可 mysql远程访问 GRANT ALL PRIVILEGES ON hive.* TO 'root'@'%' IDENTIFIED BY '访问密码'; flush privileges; https://blog.csdn.net/qq_27078095/article/details/56865443 hadoop编译snappy https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/bk_installing_manually_book/content/rpm-chap1-11.html 配置yarn文档 ================================================================================= 企业版 kyligence 安装 官网: https://kyligence.io/zh/ 1、安装条件CDH

性能测试解读:Kyligence vs Spark SQL

独自空忆成欢 提交于 2019-11-29 05:46:39
全球各种大数据技术涌现的今天,为了充分利用大量数据获得竞争优势,企业需要高性能的数据分析平台,可靠并及时地提供对海量数据的分析见解。对于数据驱动型企业,在海量数据上交互式分析的能力是非常重要的能力之一。 本测试侧重在多维分析场景,对比Spark SQL 与 Kyligence 产品在大规模数据集上的查询响应的性能差异和特点。 测试产品介绍 Spark SQL 本质上是基于 DAG 的 MPP ,提供 SQL 或类 SQL 的查询接口,通过将 SQL 查询请求转换成逻辑计划、物理执行,然后进行分布式的执行。在查询执行的过程中,充分利用完全基于内存的并行计算做到低延迟查询(通常是秒级到分钟级,数据量越大查询响应越慢)。 Kyligence Enterprise 是企业级智能大数据OLAP ,基本思路是对数据作多维索引,查询时只扫描索引而不访问原始数据达到提速。作为充分利用了预计算技术的产品,Kyligence Enterprise 擅长提供多维分析的亚秒级响应能力。特别是在数据量呈倍数增长时,查询性能依然具有很显著的优势。 本次测试的产品是Kyligence Enterprise 4.0,对照的大数据分析引擎Spark SQL 2.4.1。 确定测试基准 在测试基准的选择上,我们考虑了实际用户的分析场景和查询特征,最终决定根据TPC-H基准进行测试。 TPC

一个案例告诉你如何使用 Kyligence + Spark 进行大数据机器学习

落爺英雄遲暮 提交于 2019-11-27 18:19:44
今天,大数据、数据科学、机器学习分析不再只是热词,已经真实地渗透于生活方方面面。根据福布斯,到2025年,全球每年将会有 175 泽字节的数据产生。Kyligence的诞生为企业带来了极速的大数据分析体验 。 当企业要对大规模的数据进一步进行更为复杂的分析如对销售额进行预测时,传统的分析工具就捉襟见肘了 。 这篇文章将以基于Spark的分布式机器学习平台 Databricks为例,为您提供一套从以 Kyligence 为数据源到分布式数据分析平台的高效无缝的解决方案。 对企业未来销量进行预测是一个很普遍的分析需求。分析师需要先以不同的时间粒度如日或月,或者是其他维度粒度如地区,商品等聚合数据,然后按不同的算法预测聚合后的数据。相类似的预测、分析场景还有很多,如运维数据的异常值检测,金融数据的反欺诈识别,销售数据的用户画像等。在数据被深入挖掘之前,都需按维度列或时间戳聚合数据。然而想顺滑地聚合如此海量的数据,并且深入挖掘数据并不简单。 对海量数据进行挖掘的难点 聚合大量数据,复杂度高,所耗时间长 当数据量呈规模式增加时,即使是执行一条简单的筛选查询也会消耗很多时间,并且查询语句复杂度越大,执行语句所花时间就会越长。因此,数据科学家稍调整筛选条件,就会重新陷入等待中。 分析维度的粒度很难随意变动 由于高额的查询成本,数据科学家们会更倾向于聚合有潜在关联的数据维度