impala

CDH环境安装KUDU

泪湿孤枕 提交于 2020-05-07 08:07:55
参考文章: CDH环境安装KUDU 1.点击主机下面的Parcel 2.点击KUDU对应的下载,下载完后点击分配,激活 3.回到首页添加服务 4.选择KUDU选择继续 5.分配角色 6.设置master和Tablet的路径 7.配置impala支持KUDU 7.1 点击impala 7.2 点击配置 7.3 找到KUDU服务,选择Kudu然后重启服务 来源: oschina 链接: https://my.oschina.net/u/4267970/blog/4268809

kudu使用方法

坚强是说给别人听的谎言 提交于 2020-05-02 17:42:08
使用方法: 可通过Java client、C++ client、Pythonclient操作kudu表,但要构建client并编写应用程序; 可通过kudu-spark包集成kudu与spark,并编写spark应用程序来操作kudu表; 可通过impala的shell对kudu表进行交互式的操作,因为impala2.8及以上的版本已经集成了对kudu的操作。下面主要讲述基于impala的使用方法。 基本要求: 安装2.8及以上版本的impala,并安装hive,使用其metastore服务来存储impala的元数据。此处Hadoop、hive、impala的安装过程省略。 注:需通过CDH 管理界面配置impala操作kudu; 基于kudu的基本操作(impala) 创建表:示例一 CREATE TABLE my_first_table ( id BIGINT, name STRING, PRIMARY KEY(id) ) PARTITION BY HASH PARTITIONS 16 STORED AS KUDU; CREATE TABLE new_table PRIMARY KEY (ts, name) PARTITION BY HASH(name) PARTITIONS 8 STORED AS KUDU AS SELECT ts, name, value FROM old

Flink 新场景:OLAP 引擎性能优化及应用案例

那年仲夏 提交于 2020-05-01 12:02:34
摘要:本文由阿里巴巴技术专家贺小令(晓令)分享,主要介绍 Apache Flink 新场景 OLAP 引擎,内容分为以下四部分: 背景介绍 Flink OLAP 引擎 案例介绍 未来计划 一、背景介绍 1.OLAP 及其分类 OLAP 是一种让用户可以用从不同视角方便快捷的分析数据的计算方法。主流的 OLAP 可以分为3类:多维 OLAP ( Multi-dimensional OLAP )、关系型 OLAP ( Relational OLAP ) 和混合 OLAP ( Hybrid OLAP ) 三大类。 (1)多维 OLAP ( MOLAP ) 传统的 OLAP 分析方式 数据存储在多维数据集中 (2)关系型 OLAP ( ROLAP ) 以关系数据库为核心,以关系型结构进行多维数据的表示 通过 SQL 的 where 条件以呈现传统 OLAP 的切片、切块功能 (3)混合 OLAP ( HOLAP ) 将 MOLAP 和 ROLPA 的优势结合起来,以获得更快的性能 以下将详细介绍每种分类的具体特征。 ■ 多维 OLAP ( MOLAP ) MOLAP 的典型代表是 Kylin 和 Druid。 MOLAP 处理流程 首先,对原始数据做数据预处理;然后,将预处理后的数据存至数据仓库,用户的请求通过 OLAP server 即可查询数据仓库中的数据。 MOLAP 的优点和缺点

kudu简介2

天大地大妈咪最大 提交于 2020-04-29 17:05:11
参考文章: kudu介绍 文章内容来源于官网文档: http://kudu.apache.org/docs/index.html 一、kudu介绍 Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。 1 功能上的空白 Hadoop生态系统有很多组件,每一个组件有不同的功能。在现实场景中,用户往往需要同时部署很多Hadoop工具来解决同一个问题,这种架构称为混合架构 (hybrid architecture)。比如,用户需要利用Hbase的快速插入、快读random access的特性来导入数据,HBase也允许用户对数据进行修改,HBase对于大量小规模查询也非常迅速。同时,用户使用HDFS/Parquet + Impala/Hive来对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。 很多公司都成功地部署了HDFS/Parquet + HBase混合架构,然而这种架构较为复杂,而且在维护上也十分困难。首先,用户用Flume或Kafka等数据Ingest工具将数据导入HBase,用户可能在HBase上对数据做一些修改。然后每隔一段时间(每天或每周)将数据从Hbase中导入到Parquet文件

为什么越来越多企业正在往ARM平台迁移?

吃可爱长大的小学妹 提交于 2020-04-23 06:02:10
1. 架构变迁 说到CPU架构,我们可能必然会提到CISC(复杂指令集,比如桌面端采用的X86系列)和RISC(精简指令集,比如移动端广泛采用的ARM系列)。理论上,RISC 相比于 CISC(Intel 和 AMD) 处理器,指令译码和流水线的实现精简化,可以在芯片上使用更少的三极管,换取更多的寄存器和流水线性能 ( 多线程 / 并发能力,高吞吐 ) 。过去,由于应用主要是跑在对功耗不敏感的X86架构CPU上,人们对该架构下的应用进行了大量的优化,ARM平台的性能优势并没有充分的发挥出来。最近数年,转机出现了,ARM平台在移动端(比如手机)和物联网终端(比如家用智能设备)的大规模使用,使得对该平台算法和软件的性能优化变得越来越充分(近年来,开源社区对ARM平台的支持已经足够用户将X86应用在合理的投入下迁移到ARM平台,LLVM等基础工具大部分可以找到支持ARM平台的版本)。结合既有的并发能力优势,使得ARM 平台的服务器在一些应用场景下显得颇有吸引力。另外,对于移动应用,在云端采用ARM平台服务器,还可以做到端云同构,节省开发调试成本。 在这样的背景下,业界大厂纷纷推出ARM平台服务器CPU. ARM平台服务器CPU在云端服务器啃下一块市场也是必然。2019年,华为推出了第二代ARM平台数据中心处理器鲲鹏920芯片(预期今年推出其升级版鲲鹏930),采用7nm制程

Flink 新场景:OLAP 引擎性能优化及应用案例

时光怂恿深爱的人放手 提交于 2020-04-21 10:33:34
摘要:本文由阿里巴巴技术专家贺小令(晓令)分享,主要介绍 Apache Flink 新场景 OLAP 引擎,内容分为以下四部分: 背景介绍 Flink OLAP 引擎 案例介绍 未来计划 一、背景介绍 1.OLAP 及其分类 OLAP 是一种让用户可以用从不同视角方便快捷的分析数据的计算方法。主流的 OLAP 可以分为3类:多维 OLAP ( Multi-dimensional OLAP )、关系型 OLAP ( Relational OLAP ) 和混合 OLAP ( Hybrid OLAP ) 三大类。 (1)多维 OLAP ( MOLAP ) 传统的 OLAP 分析方式 数据存储在多维数据集中 (2)关系型 OLAP ( ROLAP ) 以关系数据库为核心,以关系型结构进行多维数据的表示 通过 SQL 的 where 条件以呈现传统 OLAP 的切片、切块功能 (3)混合 OLAP ( HOLAP ) 将 MOLAP 和 ROLPA 的优势结合起来,以获得更快的性能 以下将详细介绍每种分类的具体特征。 ■ 多维 OLAP ( MOLAP ) MOLAP 的典型代表是 Kylin 和 Druid。 MOLAP 处理流程 首先,对原始数据做数据预处理;然后,将预处理后的数据存至数据仓库,用户的请求通过 OLAP server 即可查询数据仓库中的数据。 MOLAP 的优点和缺点

PaddlePaddle/PARL

纵然是瞬间 提交于 2020-04-16 11:35:24
【推荐阅读】微服务还能火多久?>>> English | 简体中文 文档 PARL 是一个高性能、灵活的强化学习框架。 特点 可复现性保证 。我们提供了高质量的主流强化学习算法实现,严格地复现了论文对应的指标。 大规模并行支持 。框架最高可支持上万个CPU的同时并发计算,并且支持多GPU强化学习模型的训练。 可复用性强 。用户无需自己重新实现算法,通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中。 良好扩展性 。当用户想调研新的算法时,可以通过继承我们提供的基类可以快速实现自己的强化学习算法。 框架结构 PARL的目标是构建一个可以完整复杂任务的智能体。以下是用户在逐步构建一个智能体的过程中需要了解到的结构: Model Model 用来定义前向( Forward )网络,这通常是一个策略网络( Policy Network )或者一个值函数网络( Value Function ),输入是当前环境状态( State )。 Algorithm Algorithm 定义了具体的算法来更新前向网络( Model ),也就是通过定义损失函数来更新 Model 。一个 Algorithm 包含至少一个 Model 。 Agent Agent 负责算法与环境的交互,在交互过程中把生成的数据提供给 Algorithm 来更新模型( Model )

Convert date to ISO week date

吃可爱长大的小学妹 提交于 2020-04-16 05:47:14
问题 How to convert dates to ISO week date in Impala SQL? For example 2019-12-30 in the ISO week date calendar would be written as 2020-W01-1 or 2020W011 ANSWER: Marked Gordon Linoff answer as correct, as it solves the essential part of the question, the deducing of the year part of ISO week date. For the week part of the ISO week date there is a ready function, and the day part of the ISO week date can be easily converted from Sunday starting week to Monday starting week. The query below contains

HBase生产环境配置与使用优化不完全指南

六月ゝ 毕业季﹏ 提交于 2020-04-10 09:37:35
HBase上线至今,承载了线上所有实时交易量,虽然大部分请求都能够保证服务稳定(99.56%响应时间毫秒级),但是一旦HBase出现问题就是鸡飞狗跳的灾难。 从老机器到新集群,从老机房到新机房,期间经历过各种问题和生产故障,总结一番以备不时之需。 HBase使用定位: 大规模数据+高并发+毫秒级响应的OLTP实时系统(数据库)。 集群部署架构 HBase集群一旦部署使用,再想对其作出调整需要付出惨痛代价,所以 如何部署HBase集群是使用的第一个关键步骤。 以下是HBase集群使用以来的部署架构变化以及对应的分析。 第一阶段 硬件混合型+软件混合型集群 集群规模:20 部署服务:HBase、Spark、Hive、Impala、Kafka、Zookeeper、Flume、HDFS、Yarn等 硬件情况:内存、CPU、磁盘等参差不齐,有高配有低配,混搭结构 硬件混合型指的是该集群机器配置参差不齐,混搭结构。 软件混合型指的是该集群部署了一套CDH全家桶套餐。 这个集群不管是规模、还是服务部署方式相信都是很多都有公司的”标准“配置。 那么这样的集群有什么问题呢? 如果仅仅HBase是一个非“线上”的系统,或者充当一个历史冷数据存储的大数据库,这样的集群其实一点问题也没有,因为对其没有任何苛刻的性能要求。 但是如果希望HBase作为一个 线上能够承载海量并发、实时响应的系统