hive初学――第一天
hiveѧϰ 数据仓库 定义 优缺点 优点 缺点 Hive和RDBMS的对比 Hive 和 HBase 的差别 Hive架构 基本组成 一、用户接口 二、Thrift Server 三、元数据存储 四、Driver:编译器(Compiler),优化器(Optimizer),执行器(Executor) 五、Hive的执行流程 Hive 的数据存储 数据仓库 数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 定义 hive是由facebook开源并实现。 hive是基于hadoop的数据仓库工具。 hive的元数据存储于关系型数据库中,真是数据存储于HDFS中。 hive是将HDFS中的数据映射为一张二维表。 hive提供HQL语句对数据进行操作。 hive的本质是将HQL语句转换为Mapreduce程序执行。 hive目的是简化MR程序的编写难度。 优缺点 优点 1、可扩展性: 横向扩展:可以自由的扩大集群规模,一般情况不需重启服务器。 纵向扩展:通过提升服务器的配置来扩展。 2、延展性:hive支持自定义函数,用户可根据需求自定义函数。 3、良好的容错性:可以保障即使节点出故障,HQL语句仍然可以执行完。 缺点 1、Hive 不支持记录级别的增删改操作,但是用户可以通过查询生成新表或者将查询结 果导入到文件中(当前选择的 hive-2.3.3