impala

Set parquet snappy output file size is hive?

北城以北 提交于 2021-01-27 08:02:33
问题 I'm trying to split parquet/snappy files created by hive INSERT OVERWRITE TABLE... on dfs.block.size boundary as impala issues a warning when a file in a partition is larger then block size. impala logs the following WARNINGS: Parquet files should not be split into multiple hdfs-blocks. file=hdfs://<SERVER>/<PATH>/<PARTITION>/000000_0 (1 of 7 similar) Code: CREATE TABLE <TABLE_NAME>(<FILEDS>) PARTITIONED BY ( year SMALLINT, month TINYINT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\037'

Set parquet snappy output file size is hive?

若如初见. 提交于 2021-01-27 08:00:23
问题 I'm trying to split parquet/snappy files created by hive INSERT OVERWRITE TABLE... on dfs.block.size boundary as impala issues a warning when a file in a partition is larger then block size. impala logs the following WARNINGS: Parquet files should not be split into multiple hdfs-blocks. file=hdfs://<SERVER>/<PATH>/<PARTITION>/000000_0 (1 of 7 similar) Code: CREATE TABLE <TABLE_NAME>(<FILEDS>) PARTITIONED BY ( year SMALLINT, month TINYINT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\037'

impala+hdfs+parquet格式文件

心不动则不痛 提交于 2021-01-09 04:35:21
[创建目录] hdfs dfs -mkdir -p /user/hdfs/sample_data/parquet [赋予权限] sudo -u hdfs hadoop fs -chown -R impala:supergroup /user/hdfs/sample_data [删除目录] hdfs dfs -rm -r /user/hdfs/sample_data/parquet [上传文件] hdfs dfs -put -f device /user/hdfs/sample_data/parquet hdfs dfs -put -f metrics /user/hdfs/sample_data/parquet [查看文件] hdfs dfs -ls /user/hdfs/sample_data/parquet [impala建表,不带分区](创建表之后,还需要通过下面的alter语句添加分区) DROP TABLE IF EXISTS device_parquet; CREATE EXTERNAL TABLE device_parquet ( deviceId STRING, deviceName STRING, orgId STRING ) STORED AS PARQUET LOCATION '/user/hdfs/sample_data/parquet/device';

Impala select * does not show all details of table

£可爱£侵袭症+ 提交于 2021-01-07 10:38:11
问题 I have an sql query within impala select * from table but when I execute this certain columns are missing . Whereas when I do describe table those columns are there. I cannot show the snippet but the types not showing up are maps , arrays , and structs . 回答1: Impala doesn't support that. Complex types have to be unpacked to be displayed. The result set of an Impala query always contains all scalar types; the elements and fields within any complex type queries must be "unpacked" using join

每个大数据工程师都应该知道的OLAP 核心知识点

陌路散爱 提交于 2021-01-05 12:00:36
OLAP 系统广泛应用于 BI, Reporting, Ad-hoc, ETL 数仓分析等场景,本文主要从体系化的角度来分析 OLAP 系统的核心技术点,从业界已有的 OLAP 中萃取其共性,分为谈存储,谈计算,谈优化器,谈趋势 4 个章节。 01 谈储存 列存的数据组织形式 行存,可以看做 NSM (N-ary Storage Model) 组织形式,一直伴随着关系型数据库,对于 OLTP 场景友好,例如 innodb[1] 的 B+ 树聚簇索引,每个 Page 中包含若干排序好的行,可以很好的支持 tuple-at-a-time 式的点查以及更新等;而列存 (Column-oriented Storage),经历了早期的 DSM (Decomposition Storage Model) [2],以及后来提出的 PAX (Partition Attributes Cross) 尝试混合 NSM 和 DSM,在 C-Store 论文 [3] 后逐渐被人熟知,用于 OLAP,分析型不同于交易场景,存储 IO 往往是瓶颈,而列存可以只读取需要的列,跳过无用数据,避免 IO 放大,同质数据存储更紧凑,编码压缩友好,这些优势可以减少 IO,进而提高性能。 列存的数据组织形式 对于基本类型,例如数值、string 等,列存可以使用合适的编码,减少数据体积,在 C-Store

Excel连接Impala

早过忘川 提交于 2020-12-29 11:19:16
本文属于技巧类,无需太多任何背景。Impala知识,请参考 Impala基础知识 步骤: 下载安装驱动 下载 Impala ODBC驱动 msi 安装文件并傻瓜式安装; cloudera官网需要注册,或者可以从其他地方找到下载地址。 配置连接信息 创建Impala odbc 点击64位(应该没有用32位的)配置项,弹窗如下,点击添加,弹出右侧窗口: 选择刚才安装好的ODBC Driver for Impala 输入必备的信息,如 host:port,选择用户名密码认证方式,输入username/password,勾选保存密码,勾选使用SASL,测试连接,如果连接失败,说明上面4个配置项信息有误。 Excel连接数据源 打开Excel,此处是Excel2016,切换到数据tab页,点击自其他来源,选择来自数据连接向导: 此处选择其他/高级,点击下一步: 关键的一步: 此处选择ODBC,然后点击下一步: 选择刚才新建的数据源,下面再输一次用户名/密码,勾选运行保存密码,测试连接。成功即可看到选择数据库和数据表的界面: 随便选择一张有数据的表,即能看到数据,随后即可进行数据分析工作: 来源: oschina 链接: https://my.oschina.net/u/4270922/blog/4867756

【kudu pk parquet】TPC-H Query2对比解析

拥有回忆 提交于 2020-11-21 14:36:57
这是【kudu pk parquet】的第二篇,query2在kudu和parquet上的对比解析,其中kudu包含有不能下发的谓词。 3台物理机,1T规模的数据集,impala和kudu版本是我们修改后支持runtime filter的版本,结果对比如下图: 纵坐标表示耗时,矮表示性能好,耗时短,响应差近三倍。 首先,来我们来看两者的执行计划,颜色越鲜艳表示越耗时: parquet kudu 可以看到kudu左右两边各有一个鲜艳的红色框(节点),说明这两个执行节点耗时比较长,放大来看: 左边部分: parquet kudu 上面两个图的执行计划红色圈起来部分,parquet的扫描(“05:SCAN KUDU”)和关联(“09:HASH JOIN”)分别只要1秒钟左右,而kudu则要7秒和11秒。 大家注意到了没有,“07:SCAN KUDU”这个节点在两个引擎上返回的数据量是不一样的,parquet只返回了5条记录,kudu则返回了25条。同时这个返回结果是作为runtime filter应用于“06:SCAN KUDU”的,所以可以看到“06:SCAN KUDU”节点上返回的数据量,呈现几何级的差异(条件宽泛,所以匹配的数据量就多了)。接着,过滤出来的结果再runtime filter应用于“05:SCAN KUDU”节点。为什么“05:SCAN KUDU

【大数据之数据仓库】选型流水记

拈花ヽ惹草 提交于 2020-11-18 21:58:02
去年10月份放下了一手打造的缓存服务(NKV和NCR),投身到新成立的数据科学中心从事大数据存储相关的工作,新的部门、新的项目、新的知识,脚踏实地,从零开始。 第一款调研的对象是cloudera公司刚开源的kudu产品,可以将其理解为是hadoop系统中的hdfs,一个存储引擎,但是和hdfs的不同之处是它支持update操作,这点非常重要! 可能是因为刚开源的缘故,文档中很多的的使用方式、操作步骤的描述都和cloudera manager(简称CM)紧紧的耦合在一起,所以一开始的时候,根本不清楚怎样独立部署kudu集群以及怎样是最佳部署方式。无奈,只好先从cloudera manager管理平台安装部署,然后等到熟悉以后再将其剥离出来,事实上后来剥离的kudu和impala的配置文件的配置参数就直接参考这里的。部署CM&CDH就花了九牛二虎之力,过程就不再细说,都是泪。 就像高富帅择偶一样,大公司cloudera出来的产品,对操作系统也是百般的挑剔,又要有绝对的话语权(root权限),所以一周又一周的要求sa帮忙续命(骚瑞啊,真的不是在耍你们,向sa们致以诚挚的敬意)。成功完成集群安装部署,面临着怎么来测试,用什么工具的尴尬,大家都没经验。 一开始,我们选择了ycsb来进行测试,有两种方式:一种是通过JDBC驱动的方式,另一种是通过kudu bind的方式

大数据就业前景如何?现在学习大数据已经晚了吗?

只愿长相守 提交于 2020-10-28 00:06:03
  大数据就业 前景如何?现在 学习大数据 已经晚了吗?作为初入社会的大学生,或者想改变环境转行的同学,看到大数据技术开发者的高薪资都想进入这个行业,但是现在大数据技术依然想之前那样火爆吗?是不是学习了大数据技术就可以获得高薪呢?   大数据从最开始的概念兴起,到现在各大互联网公司逐步推广使用。已经逐渐成熟,目前营销、电商、教育领域等等对大数据的应用已经初见效果。大数据也从最开始的概念过渡到实际应用领域。对技术人员的招聘也更加趋于理性。所以并非大数据技术不再火爆,而是企业对于大数据从业人员的要求提高了。   根据招聘网站显示,目前大数据工作招聘需求,薪资普遍稳定在15-30K之间。其中目前刚入行的大数据工程师平均薪资在1万左右,而随着工作时间的增加,3~5年经验的大数据工程师的薪资待遇将达到3万元左右。   据相关机构统计,未来的3~5内大数据人才的缺口将达到150万,而且随着大数据的发展,人才缺口将不断扩大,所以大数据不管是目前还是未来长期都将是紧缺人才,受到各大互联网企业的关注。   如果你想投入大数据的怀抱,但却苦于不知如何下手。而当你准备学习大数据技术时,你可以了解一下博斌去计算大数据课程,主要是针对有一定编程开发经验的学员研发的课程。从大数据基础增强开始,内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容

数据可视化第10篇:davinci扩展数据源支持

会有一股神秘感。 提交于 2020-10-24 16:44:45
davinci默认的数据源驱动配置文件中,只配置了mysql和oracle。但是jar只有mysql的驱动jar包,所以默认davinci只支持连接mysql数据源。 一、修改数据源驱动配置文件 (1)进入davinci安装目录中的config文件夹 cd $DAVINCI3_HOME/config (2)修改数据源驱动配置模板 mv datasource_driver.yml.example datasource_driver.yml (3)编辑数据源驱动,并追加内容(支持kylin和impala数据源) vi datasource_driver.yml #kylin: # name: kylin # desc: kylin # driver: org.apache.kylin.jdbc.Driver # keyword_prefix: \" # keyword_suffix: \" # alias_prefix: \" # alias_suffix: \" #impala: # name: impala # desc: impala # driver: com.cloudera.impala.jdbc41.Driver # keyword_prefix: \" # keyword_suffix: \" # alias_prefix: \" # alias_suffix: \"