外部表

13、Hive的DDL、DML语法案例实战

こ雲淡風輕ζ 提交于 2020-02-03 18:58:23
1、Hive的DDL语法操作 1.1、Hive数据库DDL操作 (1)创建数据库 create database db_hive2;`<br/>`或者`<br/>`create database if not exists db_hive; 数据库在HDFS上的默认存储路径/user/hive/warehouse/*.db (2)显示所有数据库 show databases; (3)查询数据库 show database like ‘db_hive’; (4)查询数据库详情 desc database db_hive; (5)显示数据库 desc database extended db_hive; (6)切换当前数据库 use db_hive; (7)删除数据库 #删除为空的数据控 drop database db_hive; #如果删除的数据库不存在,最好采用if exists判断数据库是否存在 drop database if exists db_hive; #如果数据库中有表存在,需要使用cascade强制删除数据库 drop database if exists db_hive cascade ; 1.2、Hive表的DDL操作 1.2.1、建表语法介绍 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col

Hive内部表和外部表的区别

倾然丶 夕夏残阳落幕 提交于 2020-01-28 20:14:06
1、Hive内部表和外部表区别: 主要分为两方面,数据加载load、删除表drop。 数据加载:创建内部表时,会将数据移动到hive指向的路径,并且由hive来管理数据的生命周期。 创建外部表时,只是记录数据所在的路径,不对数据位置做改变。 删除表:删除内部表,数据和元数据会一起删除掉。 删除外部表,只是删除元数据,数据不会删除。 2、如何选择内部表还是外部表: a、所有数据都由hive管理,就创建内部表;数据由hive和其他工具一起管理,就创建外部表。 b、管理表不方便获取数据的权限,数据由其他工具管理,选用外部表。 来源: https://www.cnblogs.com/guoyu1/p/12238605.html

Hive记录-Hive常用命令操作

对着背影说爱祢 提交于 2020-01-27 11:07:56
1.hive支持四种数据模型 • external table ---外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该外部表所指向的数据是不会被删除的,它只会删除外部表对应的元数据;而如果你要删除表,该表对应的所有数据包括元数据都会被删除。 • table ---表,存储在HDFS的一个目录中。 • partition ---分区:在Hive中,表的每一个分区对应表下的相应目录,所有分区的数据都是存储在对应的目录中。 • bucket ---桶,对指定的列计算其hash,根据hash值切分数据,目的是为了并行,每一个桶对应一个文件(注意和分区的区别)。 2.hive支持的数据类型 • 基本类型:tinyint, smallint, int,bigint, boolean, float, double, string,date • 复杂类型:struct,map,array 3. 创建Create语句 3.1.创建表 create table test (id int, name string); 3.2.创建外部表 create external table page(id int,page string, ip string comment 'IP Address of the User') ROW

Hive创建表

狂风中的少年 提交于 2020-01-25 07:38:31
1 hive ddl语句 2 创建表 2.1 创建内部表(托管表,管理表): 表被Hive管控 数据存放在数据仓库中 /user/hive/warehouse --语法: create table 表名( 字段名1 数据类型,字段名 2 数据类型.... ) row format delimited fields terminated by '\001' --指定字段分隔符 collection items terminated by '\002' -- 指定集合的分隔符 map keys terminated by '\003' --指定map的分隔符 lines terminated by '\n' --指定行的分隔符 create table students(id string,name string,java float,c float,mysql float,hadoop float,sex string) row format delimited fields terminated by ',' #将数据添加到students表中 load data local inpath '/home/zx/data/students2.csv' into table students; 运行结果如下: d数据表是存放在数据仓库中 2.2创建外部表: external

实战kudu集成impala

我只是一个虾纸丫 提交于 2020-01-21 18:50:51
推荐阅读: 论主数据的重要性(正确理解元数据、数据元) CDC+ETL实现数据集成方案 Java实现impala操作kudu 实战kudu集成impala impala基本介绍   impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,   impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分布式图计算、Dremel--交互式分析工具)当中的Dremel实现而来,其中旧三篇论文分别是(BigTable,GFS,MapReduce)分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。   impala是基于hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点   Kudu与Apache Impala (孵化)紧密集成,impala天然就支持兼容kudu,允许开发人员使用Impala的SQL语法从Kudu的tablets 插入,查询,更新和删除数据; impala的架构以及查询计划 Impalad 基本是每个DataNode上都会启动一个Impalad进程,Impalad主要扮演两个角色: Coordinator: 负责接收客户端发来的查询,解析查询

Hive基础

五迷三道 提交于 2020-01-20 18:44:20
Hive基础(一) 原创人间怪物 最后发布于2018-12-19 15:35:03 阅读数 2918 收藏 展开 1.Hive是什么 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 2.Hive架构 用户接口: Shell/CLI,CLI(Command Line Interface),Shell 终端命令行,采用交互形式使用 Hive 命令行与 Hive 进行交互。Cli 启动的时候,会同时启动一个 Hive 副本。JDBC/ODBC客户端是Hive的JAVA实现,与传统数据库JDBC类似。Web UI通过浏览器访问hive。主要用来将我们的sql语句提交给hive。 Thrift服务器:Thrift 是 Facebook 开发的一个软件框架,可以用来进行可扩展且跨语言的服务的开发, Hive 集成了该服务,能让不同的编程语言调用 Hive 的接口。 元数据库: 存储在 Hive 中的数据的描述信息。Hive 将元数据存储在数据库中,如 mysql、(默认)derby。Hive 中的元数据包括表的名字

Greenplum简介

风格不统一 提交于 2020-01-18 17:20:15
Greenplum能做什么? 数仓 / OLAP / 即席查询 混合负载 / HTAP 流数据 集成数据分析 数据库内嵌机器学习 现代 SQL 核心架构 架构图 Master Host: 主节点, 负责协调整个集群 没有数据, 只有用户的元数据 Standby Master: 备份主 Segment Host: 每个Segment都是一个单节点的PostgreSQL数据库。 包含用户的实际数据, 会等待master给它分配实际任务, 然后进行相互协调执行。 每个Segment对应在另外一个节点上会有一个镜像(mirror), 当这台Segment挂了之后, 它的镜像就会自动提升为primary, 从而实现高可用。 可以随着业务的扩充进行线性扩展 每台机器都是独立的, 机器之间通过Interconnect进行网络通讯, 因为又被称为MPP无共享架构。 数据分布 多种分布策略: Hash, 随机, 复制表等 最重要的策略和目标是均匀分布: 每个节点 1/n 数据 多级分区 多模存储 / 多态存储 通常情况下, 数据 价值随着时间越来越低 , 所以会有不同的对应处理模式。 就比如说一张销售表: 最近3个月的数据, 我们可能要做的是对数据的 完善及更新 。 距今3个月到1年的数据, 我们可能做的最多的是做一些 查询, 聚集, 报表 。 1年前+数据, 访问较少。 对应存储模式: 1年前

【Hive】Hive基础知识

我怕爱的太早我们不能终老 提交于 2020-01-16 08:18:10
文章目录 1. hive产生背景 2. hive是什么 3. hive的特点 3.1优点: 3.2 缺点: 4. Hive 和 RDBMS 的对比 5. hive架构 5.1 用户接口层 5.2 Thrift Server层 5.3 元数据库层 5.4 Driver核心驱动层 6. hive的数据存储(整理一) 7. hive的数据组织形式(整理二) 7.1 库 7.2 表 7.2.1 从数据的管理权限分 7.2.1.1 内部表(管理表、managed_table) 7.2.1.2 外部表(external_table) 7.2.2 从功能上分 7.2.2.1 分区表 7.2.2.2 分桶表 7.3 视图 7.4 数据存储 7.4.1 元数据 7.4.2 表数据(原始数据) 1. hive产生背景 先分析mapreduce: mapreduce主要用于数据清洗或统计分析工作 并且绝大多数的场景都是针对的结构化数据的分析 而对于结构化的数据处理我们想到sql 但数据量非常大时,没办法使用mysql等,只能使用mapreduce 可是 mapreduce 的 缺点 是: 编程不便、成本太高 hive的诞生: 如果有一个组件可以针对大数据量的结构化数据进行数据分析,但是又不用写mapreduce,直接用sql语句实现就完美了 所以hive就诞生了 直接使用 MapReduce

Hive(5)-DDL数据定义

笑着哭i 提交于 2020-01-16 06:42:59
一. 创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)]; 字段解释: 1). IF NOT EXISTS : 避免要创建的数据库已经存在 2). COMMENT : 给数据库添加一个备注 3). LOCATION : 如果不指定路径,默认的存储路径是HDFS的/user/hive/warehouse/*.db 4). WITH DBPROPERTIES : 给数据库添加一些自定的<key,value> create database if not exists hive_db comment 'my fisrt database' location '/first_database' with dbproperties ('createtime' = '20181218'); Hive默认不支持中文,但是可以改 1). 修改hive_site.xml中的参数 <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://hadoop102

hive基本结构与数据存储

孤者浪人 提交于 2020-01-16 05:06:28
一、Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。还可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 HQL。使用hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合 数据仓库 的统计分析。 Hive将元数据存储在数据库(RDBMS)中,比如MySQL、Derby中。Hive有三种模式连接到数据,其方式是:单用户模式,多用户模式和远程服务模式。(也就是内嵌模式、本地模式、远程模式)。 Hive特点: 1.可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 2. 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。 3.容错 良好的容错性,节点出现问题SQL仍可完成执行。 二、Hive架构 Hive体系结构如下图: 再来一张中文的图: 其中第一张图中的Jobtracker是hadoop1.x中的组件,它的功能相当于hadoop2.x中的: Resourcemanager+AppMaster TaskTracker 相当于: Nodemanager + yarnchild 从上图可以看出