使用方法:
- 可通过Java client、C++ client、Pythonclient操作kudu表,但要构建client并编写应用程序;
- 可通过kudu-spark包集成kudu与spark,并编写spark应用程序来操作kudu表;
- 可通过impala的shell对kudu表进行交互式的操作,因为impala2.8及以上的版本已经集成了对kudu的操作。下面主要讲述基于impala的使用方法。
基本要求:
安装2.8及以上版本的impala,并安装hive,使用其metastore服务来存储impala的元数据。此处Hadoop、hive、impala的安装过程省略。
注:需通过CDH 管理界面配置impala操作kudu;
基于kudu的基本操作(impala)
创建表:示例一
CREATE TABLE my_first_table
(
id BIGINT,
name STRING,
PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;
CREATE TABLE new_table
PRIMARY KEY (ts, name)
PARTITION BY HASH(name) PARTITIONS 8
STORED AS KUDU
AS SELECT ts, name, value FROM old_table;
注:创建内部表时,类似partition by ………stored as kudu的分区声明语句是必须的。
无论是通过client创建的kudu表还是通过impala创建的表,都可以在master节点的UI界面的tables选项中查看,如下图:
数据的导入导出
来源:oschina
链接:https://my.oschina.net/u/4395566/blog/4262296