必备干货 | Hbase简介以及数据结构和表详解
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷先生的新书 《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】 文章目录 前言 Hbase原理和功能介绍 1. Hbase特性 2. Hbase的架构核心组件 Hbase数据结构和表详解 总结 前言 Hbase 经常用来存储实时数据,比如Storm/Flink/Spark-Streaming消费用户行为日志数据进行处理后存储到Hbase,通过Hbase的API也能够毫秒级别的实时查询。如果是对Hbase做非实时的离线数据统计,我们可以通过Hive建一个到Hbase的映射表,然后写Hive SQL来对Hbase的数据进行统计分析。并且这种方式可以方便的和其它的Hive表做关联查询,做更复杂的统计。所以从交互形势上Hbase满足了实时和离线的应用场景,在互联网公司应用的也非常普遍。 Hbase原理和功能介绍 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目