大数据(Hive-搭建和基本使用)
Hive背景及应用场景 Hive是什么? 由facebook开源,最初用于解决海量结构化的日志数据统计问题; ETL (Extraction-Transformation-Loading )工具 构建在Hadoop之上的数据仓库; 数据计算使用MR ,数据存储使用HDFS Hive 定义了一种类 SQL 查询语言——HQL; 类似SQL , 但不完全相同 通常用于进行离线数据处理(采用MapReduce); 可认为是一个HQL MR的语言翻译器。 Hive典型应用场景 日志分析 统计网站一个时间段内的pv、uv 多维度数据分析 大部分互联网公司使用Hive进行日志分析,包括百度、淘宝等 其他场景 海量结构化数据离线分析 低成本进行数据分析(不直接编写MR) 为什么使用Hive? 简单、容易上手 提供了类SQL 查询语言HQL ; 为超大数据集设计的计算/扩展能力 MR 作为计算引擎,HDFS Hive基本架构 Hive各模块组成 用户接口 包括 CLI ,JDBC/ODBC ,WebUI 元数据存储(metastore) 默认存储在自带的数据库derby 中,线上使用时一般换为MySQL 驱动器(Driver) 解释器、编译器、优化器、执行器 Hadoop 用 MapReduce进行计算,用HDFS进行存储 Hive部署架构-实验环境 数据类型(不断增加中……) 数据定义语句