HBase基本架构:
RegionServer的作用
Data (某一行或者几行数据的操作):get, put, delete (查、增、删,改是通过时间戳timestamp控制的)
Region (相当于水平分表): splitRegion(切分), compactRegion(合并)
Master的作用:
Table:create, delete, alter
RegionServer: 分配regions到每个RegionServer,监控每个RegionServer的状态。
注意:Mater挂掉的一段时间里面,对数据的增删改查,没问题;对表的操作,不能够了!
也就是说Master其实管两件事情:
1)Master管理的DDL操作,不管DML的事情。
2)Master根据负载情况,决定把数据给哪个region(region XXX),即当前表给谁维护。
Master存在单点故障。所以需要高可用。
(Hadoop1.0不带高可用,Hadoop2.0可以高可用但是相对比较麻烦,Hadoop3.0自带高可用)
RegionServer管理DML操作,直接和数据操作。
搭建HBase环境需要启动的清单:
1)Zookeeper
2)Master
3)RegionServer
4)HDFS
Yarn可以不启动。因为这部分和Yarn没关系,Yarn是调度资源做计算的,而HBase这里是做存储的,和计算无关所以不需要Yarn。
架构进阶(没写完,改天写)
HLog
WAL 预写入日志
来源:oschina
链接:https://my.oschina.net/happyBKs/blog/4953393