1.数据采集到hadoop中;
2.数据在采集过程中,一部分丢给hdfs,一部分丢该实时的处理系统(kafka)
kafka严格上说并不是消息队列,消息队列是符合 gms 规范的,有先后顺序的,kafka不保证顺序,严格意义上说kafka是一个分布式的消息缓存,队列是取一个少一个,而缓存是一直存在的
为什么要放到kafka呢,因为要对数据进行实时处理,会接一个storm,实时流式计算系统,hadoop是离线系统
把数据抽取出来想要的字段,例如上网时间,电话号码,上网的流量,请求的url等,然后存储到Hbase中
Hbase与HDFS有什么区别?
Hbase会根据每一行的主键(rowkey)的字典顺序将数据进行排序,因此只要把行键设计的好,就可以提高查询效率
大量的数据在Hbase存储,在mysql、cracle要就存满了,为什么在Hbase可以存储下?
Hbase天生就是分布式实现的,mysql是靠人为取分库分表,而Hbase对用户呈现就是一张表,但是这张表本质上的分布在多个服务器上管理的,这样的好处就是这个表可以无限的扩容,像细胞一样分裂表,存储变大后就会分裂出其他表。对用户来说是透明的扩容
Hbase有一个主服务器Master,从服务器管理分,一般从服务器和datanode放在一起
Hbase的业务需求比较简单
获取基站数据
把基站信信息放到hafka中,基站数据到kafka中间加入kafka生产者,与基站信息对接采用socket协议
这样kafka汇聚了基站传过来的位置信息与用户相关信息到一起 ,kafka中与topic主题,这样互不干扰
进来一下kafka实时数据如何取处理?
redis是内存数据库,快,持久化机制
来源:oschina
链接:https://my.oschina.net/u/4434424/blog/3217062