Apache Tez

CDH6.0.1集成tez-0.9.1计算引擎

此生再无相见时 提交于 2019-12-06 19:24:59
参考文章: https://www.jianshu.com/p/9fb9f32e1f0f https://www.baidu.com/link?url=OgpwasnZi7H1dySN2T111sseEWDBaCCTC3DFV61G7756YbrkJCA8Y3UFaueyqnfN&wd=&eqid=daeb8b3500049cf3000000065d82fcbc http://tez.apache.org/releases/apache-tez-0-9-1.html 准备工作: hadoop版本:3.0.0-cdh6.0.1 hive版本:hive-2.1.1 linux环境: jdk1.8 maven-3.6 protobuf-2.5.0.tar.gz // https://github.com/protocolbuffers/protobuf/releases tez-0.9.1源码 // http://www.apache.org/dyn/closer.lua/tez/0.9.1/ windows环境: jdk1.8 maven-3.3.9 protoc-2.5.0-win32.zip // https://github.com/protocolbuffers/protobuf/releases tez-0.9.1源码 // http://www.apache.org/dyn

Hive执行group by缓存中找不到HDFS委托token

做~自己de王妃 提交于 2019-12-03 11:52:46
当运行hive查询时,出现了错误,当我执行查询group by语句,它抛出一个错误: java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Vertex failed, vertexName=Map 8, vertexId=vertex_1530387194612_0030_4_00, diagnostics=[Vertex vertex_1530387194612_0030_4_00 [Map 8] killed/failed due to:ROOT_INPUT_INIT_FAILURE, Vertex Input: tbtbotabel_db2_orc initializer failed, vertex=vertex_1530387194612_0030_4_00 [Map 8], java.io.IOException: java.util.concurrent.ExecutionException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.token

大数据(hadoop-分布式搭建和yarn)

依然范特西╮ 提交于 2019-12-01 00:10:28
分布式搭建步骤 1:克隆一台机器完成后,按以下步骤进行修改(作为源克隆主机) 1)修改网卡信息,路径/etc/sysconfig/network-scripts 2)删除70-persistent-net.rules这个文件,路径在:/etc/udev/rules.d 3)修改hosts文件,设置ip和主机名对映关系 如: 127.0.0.1 localhost 192.168.153.115 hm02 192.168.153.116 hs0201 192.168.153.117 hs0202 4)重启 5)删除hadoop和jdk的安装包(可选) 6)删除hadoop2.7.3下面的tmp目录 2:克隆从节点后,修改步骤 比上面的主节点的步骤,少3,5,6这几步 3:免密登陆设置 1)重新生成私钥和公钥(主从节点) 2)将公钥写入authorized_keys这个文件(主节点) 三台机器的免密设置 3)将2台从节点上面的公钥远程拷贝到主节点 4)在主节点上面将从节点的公钥合并到authorized_keys这个文件 5)把这已经合并了三台机器公钥的authorized_keys文件分发到两个从节点上面 cat id_rsa.pub_from_hs0201 >> authorized_keys scp authorized_keys hadoop@hs0202:~/.ssh

数据仓库概念

陌路散爱 提交于 2019-11-30 17:55:26
一、项目需求 数据采集平台搭建 实现用户行为数据仓库的分层搭建 实现业务数据仓库的分层搭建 针对数据仓库中的数据进行留存、转换率、GMV、复购率、活跃等报表分析 二、思考题 项目技术如何选型 框架版本如何选型(如Apache、CDH、HDP) 服务器使用物理机还是云主机 如何确认集群规模?(假设每台服务器8t硬盘) 技术选型: 数据采集传输 : Flume、Kafka、Sqoop 、Logstash、 DataX 数据存储 : Mysql、HDFS 、HBase、Redis、MongoDB 数据计算 : Hive、Tez、Spark 、Flink、Storm 数据查询 : Presto、Druid 、Impala、Kylin 问题: kafka消息存HDFS方法? java代码消费,然后调用HDFS上传api或者通过Flume 系统数据流程设计 来源: https://my.oschina.net/u/3915790/blog/3114122

CDH6.0.1集成tez-0.9.1计算引擎

旧城冷巷雨未停 提交于 2019-11-30 03:06:26
参考文章: https://www.jianshu.com/p/9fb9f32e1f0f https://www.baidu.com/link?url=OgpwasnZi7H1dySN2T111sseEWDBaCCTC3DFV61G7756YbrkJCA8Y3UFaueyqnfN&wd=&eqid=daeb8b3500049cf3000000065d82fcbc http://tez.apache.org/releases/apache-tez-0-9-1.html 准备工作: hadoop版本:3.0.0-cdh6.0.1 hive版本:hive-2.1.1 linux环境: jdk1.8 maven-3.6 protobuf-2.5.0.tar.gz // https://github.com/protocolbuffers/protobuf/releases tez-0.9.1源码 // http://www.apache.org/dyn/closer.lua/tez/0.9.1/ windows环境: jdk1.8 maven-3.3.9 protoc-2.5.0-win32.zip // https://github.com/protocolbuffers/protobuf/releases tez-0.9.1源码 // http://www.apache.org/dyn

Hive on Spark 伪分布式环境搭建过程记录

我只是一个虾纸丫 提交于 2019-11-29 21:29:28
进入hive cli是,会有如下提示: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases. Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。因此,Hive on Spark也会比Hive on mr快。为了对比Hive on Spark和Hive on mr的速度,需要在已经安装了Hadoop集群的机器上安装Spark集群(Spark集群是建立在Hadoop集群之上的,也就是需要先装Hadoop集群,再装Spark集群,因为Spark用了Hadoop的HDFS、YARN等),然后把Hive的执行引擎设置为Spark。 Spark运行模式分为三种: 1、Spark on YARN 2、Standalone Mode 3、Spark