impala

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

南楼画角 提交于 2020-02-29 11:21:18
摘要: 数据存储在OSS后,可以有多种方式查询分析OSS数据,如自建Spark/Presto/Impala(阿里云EMR以及Hadoop社区官方已支持OSS), 使用MaxCompute、DataLakeAnalytics等。 基于OSS的数据查询分析 数据存储在OSS后,有多种查询分析的方法,包括阿里云MaxCompute、DataLakeAnalytics产品等Severless查询分析服务,也可以自建Spark、Presto、Imapla应用来分析OSS上的数据。 实验步骤(DataLakeAnalytics on OSS) 本次实验,主要介绍实验DataLakeAnalytics如何Severless地查询分析OSS上的数据。 服务开通 OSS服务: 1.开通OSS服务 https://www.aliyun.com/product/oss DataLakeAnalytics服务: 1. 申请DataLakeAnalytics的试用资格 备注:目前DataLakeAnalytics公测中,需提交公测申请,开通试用。 操作步骤 准备数据 登录控制台 , 并创建目录 请创建 华东1 区域的OSS测试Bucket(目前DataLakeAnalytics产品公测区域为华东1)。 备注:Bucket名称是全局唯一,如果提示名称已存在,请更换一个Bucket名称。 创建目录(建议目录如下

值得关注的sql-on-hadoop框架

爱⌒轻易说出口 提交于 2020-02-29 03:18:04
http://www.infoq.com/cn/news/2014/06/sql-on-hadoop 数据的操作语言是SQL,因此很多工具的开发目标自然就是能够在Hadoop上使用SQL。这些工具有些只是在MapReduce之上做了简单的包装,有些则是在HDFS之上实现了完整的数据仓库,而有些则介于这两者之间。这样的工具有很多,来自于 Shoutlet 的软件开发工程师Matthew Rathbone最近发表了 一篇文章 ,他列举了一些常用的工具并对各个工具的应用场景和未来进行了分析。 Apache Hive Hive是原始的SQL-on-Hadoop解决方案。它是一个开源的Java项目,能够将SQL转换成一系列可以在标准的Hadoop TaskTrackers上运行的MapReduce任务。Hive通过一个metastore(本身就是一个数据库)存储表模式、分区和位置以期提供像MySQL一样的功能。它支持大部分MySQL语法,同时使用相似的 database/table/view约定组织数据集。Hive提供了以下功能: Hive-QL,一个类似于SQL的查询接口 一个命令行客户端 通过中央服务支持元数据共享 JDBC 驱动 多语言 Apache Thrift 驱动 一个用于创建自定义函数和转换的Java API 何时使用它? Hive

Impala Catlogd OOM 处理

瘦欲@ 提交于 2020-02-27 06:53:01
Desc: impala catalogd 模块需要较多内存,具体和数据量、项目数、数据存储时长直接相关,因此一般都是大数据量的集群版出现此问题,单机版正常情况下不会出现 一、问题背景 出现该问题会有几个现象: 1.查看 impala 的 catalog server 的日志,发现有类似如下的 OOM 报错信息 2.impala 的 catalogd 的监控状态出现异常退出(即进程被 kill,但是某些较低 CDH 版本因为 bug 不会被 kill,见 下面 的说明) 然后需要通过以下方式确认 OOM 的时候是否真的被 kill 了: 找到 catalogd 的日志目录,一般是 /data/cloudera/logs/catalogd/ 查看该目录下是否有 killed_by_killparent_on_oom 文件,且文件内容的日期(即被 kill 的日期)是最近。如果是说明确实是被 OOM Kill 了。 [ root@impala - 02 catalogd ] # cat killed_by_killparent_on_oom Mon May 14 12 : 53 : 00 CST 2018 二、操作步骤 调整 catalogd 模块的内存,每次确认 catalogd 因为 OOM 挂掉,可以尝试增加 1GB 内存并重启 注意:在同构部署的情况下(即没有单独元数据节点)

迁移 Impala Statestore/Catalog Server

会有一股神秘感。 提交于 2020-02-26 20:23:58
Desc: 操作前必须停止导入、查询等操作 1.进入 impala 界面,添加成功后启动,点击 实例,勾选旧的实例,点击 已选定的操作 选择 停止→删除 2.之后会有红色的警告说没有实例,不用管,点击 实例->添加角色实例,添加新的statestore/catelog server,然后启动服务 3.重启impala,会有提示的。 来源: CSDN 作者: Abson_Lu 链接: https://blog.csdn.net/Abson_Lu/article/details/104522109

一步一步理解Impala query profile(四)

放肆的年华 提交于 2020-02-26 16:04:15
在本系列的第三部分,我使用了一个示例来详细地介绍 Impala query profile 。在这一部分中,我将使用一个真实生产系统的 Impala Profile 文件,解释我在遇到问题时阅读 Profile 文件的步骤,并逐渐找到引起问题的真正原因。如果你错过了我的文章的前3个部分,你可以点击以下链接阅读一下: 一步一步理解Impala query profile(一) 一步一步理解Impala query profile(二) 一步一步理解Impala query profile(三) 好了,我们开始吧。由于 Profile 文件本身相当大,因为它涉及到多个 Impalad 进程,所以如果我将完整的内容在页面上显示出来,页面就会很难看。因此,请从这个 链接 下载,并在你本地电脑或浏览器上来查看这个文件。 这个查询的问题是,不知道出于什么原因,之前执行相同的查询几分钟内就可以完成,但现在要花1个多小时才能完成。这个 Profile 文件只是其中的一个例子,实际上,当时在这个集群中运行的所有查询都有相同的问题。所以请花点时间看一下这个 Profile ,看看你是否能获取什么有用的信息,并对问题产生的场景有一个大致的了解。 现在,让我们一起来看看排查该问题的步骤。 1、由于用户反馈查询时间比正常情况下长,我想知道的第一件事是到底花费了多长时间?所以首先,我在 Profile

0433-Kerberos环境下Impala Daemon在CDH5.15版本中KRPC端口27000异常分析

两盒软妹~` 提交于 2020-02-19 00:49:32
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.问题描述 CDH集群升级至5.15并且启用Kerberos的情况下,在命令行使用impala-shell执行SQL操作会报如下异常: [ cdh01 . fayson . com : 25003 ] > select count ( * ) from ods_user ; Query : select count ( * ) from ods_user Query submitted at : 2018 - 10 - 25 00 : 02 : 13 ( Coordinator : http : / / cdh04 . fayson . com : 25000 ) Query progress can be monitored at : http : / / cdh04 . fayson . com : 25000 / query_plan ? query_id = cb4b45a849a9c4c7 : 7603 f86900000000 WARNINGS : TransmitData ( ) to 172.27 .0 .3 : 27000

Calling JDBC to impala/hive from within a spark job and creating a table

江枫思渺然 提交于 2020-02-13 03:13:28
问题 I am trying to write a spark job in scala that would open a jdbc connection with Impala and let me create a table and perform other operations. How do I do this? Any example would be of great help. Thank you! 回答1: val JDBCDriver = "com.cloudera.impala.jdbc41.Driver" val ConnectionURL = "jdbc:impala://url.server.net:21050/default;auth=noSasl" Class.forName(JDBCDriver).newInstance val con = DriverManager.getConnection(ConnectionURL) val stmt = con.createStatement() val rs = stmt.executeQuery

Calling JDBC to impala/hive from within a spark job and creating a table

丶灬走出姿态 提交于 2020-02-13 03:13:27
问题 I am trying to write a spark job in scala that would open a jdbc connection with Impala and let me create a table and perform other operations. How do I do this? Any example would be of great help. Thank you! 回答1: val JDBCDriver = "com.cloudera.impala.jdbc41.Driver" val ConnectionURL = "jdbc:impala://url.server.net:21050/default;auth=noSasl" Class.forName(JDBCDriver).newInstance val con = DriverManager.getConnection(ConnectionURL) val stmt = con.createStatement() val rs = stmt.executeQuery

Impala & Hive 使用复杂数据类型

自作多情 提交于 2020-02-12 01:38:10
1. 环境 CDH 5.16.1 2. Hive 使用复杂数据类型 2.1 数据格式 1 zhangsan:man football,basketball 2 lisi:female sing,dance 2.2 Hive 建表 create table studentInfo( id int, info map<string,string> comment 'map<姓名,性别>', favorite array<string> comment 'array[football,basketball]' ) row format delimited fields terminated by '\t' --列分隔符 collection items terminated by ',' --array中各个item之间的分隔符 map keys terminated by ':' --map中key和value之间的分隔符 lines terminated by '\n'; --行分隔符 2.3 导入数据 load data local inpath '/opt/module/jobs/student.txt' into table studentInfo; 2.3 执行查询 select * from studentInfo; +-----------------+---------

ubuntu14.04配置impala的odbc连接

↘锁芯ラ 提交于 2020-02-11 04:45:01
cdh hive和impala的odbc驱动 http://www.cloudera.com/downloads.html.html 选择 SLES 11 64-bit下载: http://www.cloudera.com/downloads/connectors/impala/odbc/2-5-26.html 或者 https://downloads.cloudera.com/connectors/impala_odbc_2.5.26.1027/Linux/SLES11/ClouderaImpalaODBC-2.5.26.1027-1.x86_64.rpm apt-get install unixodbc apt-get install unixodbc-dev 安装impala odbc apt-get install alien dpkg-dev debhelper build-essential alien ClouderaImpalaODBC-2.5.26.1027-1.x86_64.rpm dpkg -i clouderaimpalaodbc_2.5.26.1027-2_amd64.deb vi /etc/profile.d/impala_env.sh export LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libodbcinst.so