项目讲解1 | 易学教程

1.数据采集到hadoop中；

2.数据在采集过程中，一部分丢给hdfs，一部分丢该实时的处理系统(kafka)

kafka严格上说并不是消息队列，消息队列是符合 gms 规范的，有先后顺序的，kafka不保证顺序，严格意义上说kafka是一个分布式的消息缓存，队列是取一个少一个，而缓存是一直存在的

为什么要放到kafka呢，因为要对数据进行实时处理，会接一个storm，实时流式计算系统，hadoop是离线系统

把数据抽取出来想要的字段，例如上网时间，电话号码，上网的流量，请求的url等，然后存储到Hbase中

Hbase与HDFS有什么区别？

Hbase会根据每一行的主键（rowkey)的字典顺序将数据进行排序，因此只要把行键设计的好，就可以提高查询效率

大量的数据在Hbase存储，在mysql、cracle要就存满了，为什么在Hbase可以存储下？

Hbase天生就是分布式实现的，mysql是靠人为取分库分表，而Hbase对用户呈现就是一张表，但是这张表本质上的分布在多个服务器上管理的，这样的好处就是这个表可以无限的扩容，像细胞一样分裂表，存储变大后就会分裂出其他表。对用户来说是透明的扩容

Hbase有一个主服务器Master，从服务器管理分，一般从服务器和datanode放在一起

Hbase的业务需求比较简单

获取基站数据

把基站信信息放到hafka中，基站数据到kafka中间加入kafka生产者，与基站信息对接采用socket协议

这样kafka汇聚了基站传过来的位置信息与用户相关信息到一起，kafka中与topic主题，这样互不干扰

进来一下kafka实时数据如何取处理？

redis是内存数据库，快，持久化机制

来源：oschina

链接：https://my.oschina.net/u/4434424/blog/3217062

标签