Warehouse

Windows下安装Hive与问题

与世无争的帅哥 提交于 2019-12-06 02:45:27
下载与安装 hive必须依赖hadoop,所以先安装hadoop,可以参考 hadoop安装 注意hive一般2.x.x就对应hadoop的2.y.y版本,3.x.x就需要hadoop的3.y.y版本。 hive下载 hive download Hive下载 hive wiki 高版本的hive中没有在windows下的运行的脚本,可以在 hive windows运行脚本 下载,覆盖对应的bin目录就可以了。 解压: HIVE_HOME目录 hive配置文件目录 Hive依赖Hadoop,记得配置HADOOP_HOME,因为启动基本中会使用到,也可以直接配置到hive-env.sh文件中,但是windows下不会使用这个配置文件,具体的可以看一下运行时候脚本。 特别注意,如果遇到类似下面的错误: java.lang.NoSuchMethodError: com.lmax.disruptor.dsl.Disruptor.<init>(Lcom/lmax/disruptor/EventFactory;ILjava/util/concurrent/ThreadFactory;Lcom/lmax/disruptor/dsl/ProducerType;Lcom/lmax/disruptor/WaitStrategy;)V 把%HADOOP_HOME%\share\hadoop\yarn

阿里架构师用3点讲透数据中台,这些都是你没看过的

☆樱花仙子☆ 提交于 2019-11-30 18:10:55
数据实际上是一个非常传统的行业。 有软件开始的那一天起,数据这个行业就存在了。比如说原来最早的时候,有非常多的数据报表数据可视化,然后到后来,有了商业智能,有了Data Warehouse(就是数据仓库),然后数据挖掘。 数据这个行业不仅仅是软件,它还有管理的部分,也就是说数据治理,即如何让企业的数据治理的质量更好。所以数据这个行业本身是一个非常传统的行业。 每个大型一点的企业都有自己的数据分析部门,数据仓库部门。 那么为什么数据湖也好,数据平台也好,在过去都没有像今年数据中台这么热门。而且关注数据中台的还不仅仅是技术部门,很多都是业务部门,业务部门以前不是特别关注这些技术的数据平台和这些技术的概念,为什么呢? 1.平台化的概念 讲到数据中台,我们就要提到平台化。我们现在所讲的SaaS也好,所讲的PaaS也好,所讲的数据中台也好,所讲的业务中台也好,它实际上根本的思想来源是来自于平台化,就是platform。 举个例子,我们拿一个饮料厂的产品线来讲,那么他可以生产果汁,可以生产饮料,还可以生产其他的产品,它可能是三四条不同的生产线。从原材料加工成饮料,它有很多环节,虽然品种不一样,但是它很多环节是类似的,比如装瓶、搅拌。 那么这几个不同的生产流程、生产线,我们可以把那些公共的部分合并起来,更加专业化,然后并且让他们独立去维护,之后把那些不同的产品面向客户,使客户体验不同的产品

(译)优化ORC和Parquet文件,提升大SQL读取性能

时间秒杀一切 提交于 2019-11-30 17:58:10
本文编译自IBM开发者社区,主要介绍了 HDFS 中小的 ORC 和 Parquet 文件的问题,以及这些小文件如何影响 Big SQL 的读取性能,并探索了为了提高读取性能,使用现有工具将小文件压缩为大文件的可能解决方案。 简介 众所周知,多个 Hadoop 小文件(定义为明显小于 HDFS 块大小的文件,默认情况下为 64MB )是 Hadoop 分布式文件系统( HDFS )中的一个大问题。 HDFS 旨在存储大量数据,理想情况下以大文件的形式存储。在 HDFS 中存储大量小文件,而不是存储较少的大文件,这在管理文件的目录树时给 NameNode 增加了额外的开销。此外, MapReduce 和其他读取 HDFS 文件的作业也会受到负面影响,因为它将涉及与 HDFS 的更多通信以获取文件信息。 小文件读取性能问题对于存储格式更为严重,在存储格式中,元数据被嵌入文件中以描述所存储的复杂内容。 IBM Db2 Big SQL 使用的两种常见文件存储格式是 ORC 和 Parquet ,这些文件格式以列格式存储数据,以优化读取和过滤列的子集。 ORC 和 Parquet 格式将有关列和行组的信息编码到文件本身中,因此,在对文件中的数据进行解压缩、反序列化和读取之前,需要处理元数据。由于这种开销,处理以逻辑方式捆绑在一起的这些格式的多个小型文件(例如,属于 Big SQL

姜大声读后感

丶灬走出姿态 提交于 2019-11-30 11:21:41
package com.alibaba.android.arouter.core; import android.content.Context; import android.content.SharedPreferences; import android.content.SharedPreferences.Editor; import android.net.Uri; import android.os.Bundle; import com.alibaba.android.arouter.exception.HandlerException; import com.alibaba.android.arouter.exception.NoRouteFoundException; import com.alibaba.android.arouter.facade.Postcard; import com.alibaba.android.arouter.facade.enums.TypeKind; import com.alibaba.android.arouter.facade.model.RouteMeta; import com.alibaba.android.arouter.facade.template.IInterceptorGroup; import com

企业云和工业云常用术语

蹲街弑〆低调 提交于 2019-11-29 23:25:57
因工作需要,很多常用的企业云术语需要熟记,特摘录如下,以备不时之需 序号 名称 中文名 英文全称 1 OA 办公自动化 Office Automation 2 BPM 业务流程管理 Business Process Management 3 ERP 企业资源计划 Enterprise Resource Planning 4 CRM 客户关系管理 Customer Relationship Management 5 C2M 用户直连制造 Customer to Manufacturing 6 APS 高级计划排程 Advanced Planning & Scheduling 7 WMS 仓库管理系统 Warehouse Management System 8 AGV 自动导引小车 Automated Guided Vehicle 9 MES 制造执行系统 Manufacturing Execution System 10 SCADA 数据采集与监视控制系统 Supervisory Control And Data Acquisition 11 PLC 可编程控制器 Programmable Logic Controller 12 HMI 人机交互界面 Human Machine Interface 13 RFID 无线射频识别 Radio Frequency

0028-如何在CDH未启用认证的情况下安装及使用Sentry

懵懂的女人 提交于 2019-11-28 15:29:38
1.文档编写目的 CDH平台中的安全,认证(Kerberos/LDAP)是第一步,授权(Sentry)是第二步。如果要启用授权,必须先启用认证。但在CDH平台中给出了一种测试模式,即不启用认证而只启用Sentry授权。但强烈不建议在生产系统中这样使用,因为如果没有用户认证,授权没有任何意义形同虚设,用户可以随意使用任何超级用户登录HiveServer2或者Impala,并不会做密码校验。注:本文档仅适用于测试环境。 本文档主要描述如何在CDH未启用认证的情况下安装,配置及使用Sentry。 内容概述 1.如何安装Sentry服务 2.Hive/Impala/Hue/HDFS服务如何与Sentry集成 3.Sentry测试 测试环境 1.操作系统为CentOS6.5 2.CM和CDH版本为5.11.1 3.采用root用户操作 前置条件 1.CDH集群运行正常 2.集群未启用认证服务(如Kerberos或LDAP) 2.Sentry安装 1.在MySQL中创建sentry数据库 建表语句: create database sentry default character set utf8; CREATE USER 'sentry'@'%' IDENTIFIED BY 'password'; GRANT ALL PRIVILEGES ON sentry. * TO 'sentry'@'

0031-如何在CDH启用Kerberos的情况下安装及使用Sentry(一)

纵然是瞬间 提交于 2019-11-27 10:18:29
1.文档编写目的 本文档主要讲述如何在启用Kerberos的CDH集群中安装配置及使用Sentry。 内容概述 1.如何安装Sentry服务 2.Hive/Impala/Hue/HDFS服务如何与Sentry集成 3.Sentry测试 测试环境 1.操作系统为CentOS6.5 2.CM和CDH版本为5.11.1 3.采用root用户操作 前置条件 1.CDH集群运行正常 2.集群已启用Kerberos且正常使用 2.Sentry安装 1.在MySQL中创建sentry数据库 建表语句: create database sentry default character set utf8; CREATE USER 'sentry'@'%' IDENTIFIED BY 'password'; GRANT ALL PRIVILEGES ON sentry. * TO 'sentry'@'%'; FLUSH PRIVILEGES; 命令行操作: [root@ip-172-31-6-148 527-hive-HIVEMETASTORE]# mysql -uroot -p Enter password: ... mysql> create database sentry default character set utf8; Query OK, 1 row affected (0.00 sec