Hive的基本概念和常用命令
一、概念: 1、结构化和非结构化数据 结构化数据:固有的键值对 非结构数据:没有固定的键值对,没有明确的映射关系 所以就可以理解下面这句话:hive是由facebook开源用于解决海量结构化日志的数据统计项目。 2、Hive是基于Hadoop文件系统上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)、数据存储管理和大型数据集的查询和分析能力。 RDBMS(关系型数据库) OLTP(联机事务处理过程):一组事务同时去执行,低延迟,查询为主。 ACID(原子性、一致性、隔离性、持久性) OLAP(联机分析处理过程):以数据仓库为基础,高延迟,分析为主。 3、Hive定义了类SQL语言-Hive QL(HQL),允许用户进行和SQL相似的操作,它可以将结构化的数据文件映射为一张数据表,并提供简单的SQL查询功能,同时允许开发人员方便的使用MR操作,可以将SQL语言转换为MR任务运行。 二、官网: 三、ETL E:Extract 数据抽取 T:Transform 数据转换 L:Load数据装载 ETL是将业务系统的数据经过抽取、清洗转换之后,装载到数据仓库的过程。目的是将分散、零乱、标准不统一的数据整合到一起。例如项目日志信息、数据爬虫信息等。就可以提供决策分析依据了。 数据抽取:把不同的数据源数据抓取过来,存到某个地方。 数据清洗