外部表

fengsong97用到的hive

99封情书 提交于 2020-01-15 04:19:40
目录 hive介绍 hive 内外部表 hive 分区表 hive 建模 hive JDBC hive介绍 hive 内外部表 hive 内部表 MANAGED_TABLE , 是被hive完全管理的表, 完全管理元数据和数据 (默认和建议创建为内部表), 数据会被放到特定的路径下 hdfs://nameservice/user/hive/warehouse/default.db/user 这个特定路径看配置: Hive的${HIVE_HOME}/conf/hive-site.xml 里的 hive.metastore.warehouse.dir 属性指向的就是Hive表数据存放的路径 简单建表示例 hive> create table default.user (id int, name string ) ; hive 外部表 EXTERNAL_TABLE ,一般先有数据,再建表用于关联原来数据的表, hive只管理元数据, 不能完全管理数据 ( insert into/overwrite 表时 数据相应改变, 但直接drop 表时数据会保留在hdfs 路径里) 简单建表示例 hive>create external table default.user_e ( id int , name string ) >row format delimited >fields

Sqoop整合HBase

筅森魡賤 提交于 2020-01-14 02:34:30
sqoop是一个数据导入导出的工具,可以将关系型数据库当中的数据导入到大数据平台来,也可以将大数据平台当中的数据导入到关系型数据库当中去 我们也可以通过sqoop导入数据到hbase或者从hbase当中导出数据 需求一 : 将 mysql表当中的数据导入到 HB ase当中来 第一步 : 修改 sqoop 配置 文件 sqoop导入导出HBase的数据,需要修改sqoop的配置文件sqoop-env.sh cd /export/servers/sqoop-1.4.6-cdh5.14.0/conf vim sqoop-env.sh #Set path to where bin/hadoop is available export HADOOP_COMMON_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0 #Set path to where hadoop-*-core.jar is available export HADOOP_MAPRED_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0 #set the path to where bin/hbase is available export HBASE_HOME=/export/servers/hbase-1.2.0-cdh5.14.0 #Set

使用GP外部表及copy命令进行数据的导入

亡梦爱人 提交于 2020-01-13 21:04:01
在某个项目任务中,需要将一堆的小文件(文件存放在ftp服务器上)中的内容,导入到数据库中。小文件中的内容是一个json格式的字符串。 考虑到使用外部表来进行数据的导入,而外部表,需要在数据库服务器本地,所以还需要将文件传到数据库服务器。 使用Xmanager Enterprise连上数据库服务器,开启通道,gpfdist -p 9876 -d /home/gpadmin/ -m 268435456 & 用于创建外部表。其中-p 后接端口,-d 后接目录 -m 后接可上传最大文件大小 ,&表示后台执行。 windows的命令也相同:gpfdist -p 8084 -d E:\temp\ftpUpload\ & 可以使用命令:wget http://192.168.27.7:8084/test.txt 将windows的文件传送到数据库服务器上。 创建外部表:CREATE EXTERNAL TABLE file_content(content text) LOCATION('gpfdist://pmd:8765/*.txt') FORMAT 'TEXT' (DELIMITER '\1' NULL ' '); 根据指定路径的所有名字中带有.txt的文件创建外部表,不同字段的分隔符为‘\1’,不过现在创建的外部表就一个字段,这个没啥意义。不过需要注意的是,如果字段的内容中含有分隔符

hive 学习

时间秒杀一切 提交于 2019-12-26 22:37:47
文章目录 1.概念: 2.HIVE架构 3.HIVE实操 3.1 Hive JDBC服务 4、Hive的DDL操作 4.1 hive的数据库DDL操作 4.1.1、创建数据库 4.1.2、显示数据库 4.1.3、查询数据库 4.1.4、查看数据库详情 4.1.5、显示数据库详细信息 4.1.6、切换当前数据库 4.1.7、删除数据库 4.2 hive的表DDL操作 4.2.1 、建表语法介绍 4.2.1.1、 4.2.1.2、 hive建表语法中的分隔符设定 4.2.1.4 查询出每个电影的第二个主演 4.2.1.5查询每部电影有几名主演 4.2.1.6 主演里面包含古天乐的电影 例题解析 4.2.2 、字段解释说明 4.2.3、 创建内部表 4.2.4、 创建外部表 4.2.5、 内部表与外部表的互相转换 4.2.6、 内部表与外部表的区别 例1:有以下格式的数据创建出合适的表结构,并将数据导入表中 1建表: 2导入数据 3 查询出每个人的id,名字,居住地址 例2 有以下格式的数据创建出合适的表结构,并将数据导入表中 1. 建表 2. 导入数据 例3 1.概念: Hive由Facebook开源,用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个 数据仓库工具 ,可以将 结构化的数据文件映射为一张表 ,并提供类SQL查询功能。 本质是: 将Hive

hive和hbase

回眸只為那壹抹淺笑 提交于 2019-12-26 04:51:40
hive:适合用来进行分析统计; hbase:用来进行实时查询。 hive的应用答题相当于mysql: 切换到当前数据库:hive:use database; 创建数据库命令:hive:create database financials; 删除数据库时,不允许删除的数据库中有数据,若有数据则会报错。这是可以用加有CASCADE关键字的命令删除; hive:drop database databasename cascade; 或者:drop database if exists databasename cascade; 查看当前数据库中的表:hive:show tables in databasename; 或者:hive:show tables like 'h*'; 查看所有的数据库。 hive> show databases ; hive> describe databases DbName; --查看数据库信息 truncate table table_a ; 清空一个表的数据(hive 0.11.0 支持) ̶ 通过Alter关键字修改DB相关信息 hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba'); 首先Hive有内部表,和External Table外部表两种表的概念

hive导入导出数据案例

岁酱吖の 提交于 2019-12-25 13:06:19
查询数据: use ods;set /user.password=ODS-SH;select * from base_cdma_all limit 10; use tag_bonc;select * from dpi_http_userapp_statistics limit 100000; #设置显示当前使用的数据库 set hive.cli.print.current.db=true; #设置不优先使用MapReduce set hive.exec.mode.local.auto=true; ======================导出数据============================= #导出hive数据到本地(事先要建好文件夹) use myexec; insert overwrite local directory '/home/hadoop/res' row format delimited fields terminated by '\t' select column1,column2 from table1; #不显式指定分隔符将会以默认的分隔符来切割列 use myexec; insert overwrite local directory '/home/hadoop/res' select * from table1; #导出hive数据到HDFS

大数据-Hive外部表的操作

放肆的年华 提交于 2019-12-24 01:05:34
1. Hive 表操作 1.3. 外部表的操作 外部表说明 外部表因为是指定其他的hdfs路径的数据加载到表当中来,所以hive表会认为自己不完全独占这份数据,所以删除hive表的时候,数据仍然存放在hdfs当中,不会删掉 管理表和外部表的使用场景 每天将收集到的网站日志定期流入HDFS文本文件。在外部表(原始日志表)的基础上做大量的统计分析,用到的中间 表、结果表使用内部表存储,数据通过SELECT+INSERT进入内部表。 操作案例 分别创建老师与学生表外部表,并向表中加载数据 创建老师表 create external table student ( s_id string , s_name string , s_birth string , s_sex string ) row format d 加载数据 load data local inpath '/export/servers/hivedatas/student.csv' into table student ; 加载数据并覆盖已有数据 load data local inpath '/export/servers/hivedatas/student.csv' overwrite into table student ; 从hdfs文件系统向表中加载数据(需要提前将数据上传到hdfs文件系统) cd / export

07 ,外部表,文本文件,parquet-snappy 文件

本小妞迷上赌 提交于 2019-12-16 07:57:04
一 ,概览 : 1 ,加载数据和创建表同时完成。 2 ,先有数据,后又表。 3 ,链接 : 外部表只是一个链接 4 ,不需要移动数据 : 他只是把表结构映射到数据文件,不需要移动数据到自己的目录下。 二 ,外部表 ,文本文件 : 1 ,建三个文件 : aa.txt : 1,aa,10 2,bb,20 3,cc,30 bb.txt : 4,dd,50 5,ee,1210 6,ff,ds cc.txt : 7,sfl,3223432 8,fe,432 9,dsds,9868 2 ,将这些文件上传到 S3 : 3 ,建表 : 外部表,数据位置,分隔符 sql 语句 : create external table person ( id int , name string , age string ) row format delimited fields terminated by ',' stored as textfile location 's3://lifecyclebigdata/dataWareHouse/BALABALA/07_hive_outer/person' ; 结果 : 数据都被扫描进去了 1 aa 10 2 bb 20 3 cc 30 4 dd 50 5 ee 1210 6 ff ds 7 sfl 3223432 8 fe 432 9 dsds 9868 三

Oracle 19c和20c新特性最全解密

Deadly 提交于 2019-12-10 11:29:47
本期为我们带来分享的嘉宾是 ACOUG 核心专家,Oracle ACE 总监 杨廷琨先生,本次嘉年华上,杨老师为我们带来题为:Oracle 19c 和 20c 的新特性解密 主题分享。下面,让我们跟随杨老师,一同来学习关于Oracle 19c和20c新特性吧~ 在这次数据技术嘉年华大会上,我和大家分享的是Oracle最新版本的一些重要的新特性。 根据我们白求恩自动巡检平台的数据分析结果,虽然Oracle对于11g的支持已经进入扩展维护期,但是目前业内使用最多的版本仍然是11.2,大概占到了6成左右。而12c的版本的使用超过10g版本,总体接近3成。这说明对于很多客户,已经逐渐把数据库升级到了12.2及以后的版本上。12c正在逐渐变为主流的版本,因此希望把新版本中一些重要的新特性分享给大家,以便于后续在数据库版本选择的时候可以对新的功能做到心中有数。 12.2推出了很长时间了,大部分DBA对于12.2的特性并不陌生,因此这次主要分享18c、19c和20c的新特性。 在Oracle中,一个频繁插入的系统在正常时刻的运行会非常稳定和高效,但是很可能突然会出现大量的竞争和等待,一般来说产生这个性能问题原因是单调递增索引在索引分裂的时候引发的竞争和等待。绝大部分主键依赖于SEQUENCE产生的NEXT_VALUE,而SEQUENCE产生的值一般都是单调递增的,因此序列产生的新值总是最大的

数仓设计回忆录

两盒软妹~` 提交于 2019-12-09 07:40:35
1 便于及时相应业务db的变化,ODS层应该使用外部表,业务DB变化,可以将ODS层表drop表,然后重建表,新增加字段,原始数据中没有的字段在新的外部表中为null 2 便于及时相应业务应用的变化,ADM也应该使用外部表,道理同上 3 为了便于数据的测试、数据代码逻辑的可维护性,应该避免写出很长、很复杂的SQL逻辑,相反,应该多使用 视图/临时视图/临时表等,然后添加任务之间的依赖 4 应该做好明细层的设计,比如 会员的消费币明细、会员的消费次明细....,然后汇总出来每个会员维度(门店会员维度的)消费明细,这样在计算会员消费给员工带来奖励的时候,会更加清晰,也便于后续的业务数据验证 5 基于明细层,再做汇总层的加工 来源: https://www.cnblogs.com/wooluwalker/p/12008905.html