项目讲解1

落爺英雄遲暮 提交于 2020-04-06 08:01:44

1.数据采集到hadoop中;

2.数据在采集过程中,一部分丢给hdfs,一部分丢该实时的处理系统(kafka)

kafka严格上说并不是消息队列,消息队列是符合 gms  规范的,有先后顺序的,kafka不保证顺序,严格意义上说kafka是一个分布式的消息缓存,队列是取一个少一个,而缓存是一直存在的

为什么要放到kafka呢,因为要对数据进行实时处理,会接一个storm,实时流式计算系统,hadoop是离线系统

把数据抽取出来想要的字段,例如上网时间,电话号码,上网的流量,请求的url等,然后存储到Hbase中

Hbase与HDFS有什么区别?

Hbase会根据每一行的主键(rowkey)的字典顺序将数据进行排序,因此只要把行键设计的好,就可以提高查询效率

大量的数据在Hbase存储,在mysql、cracle要就存满了,为什么在Hbase可以存储下?

Hbase天生就是分布式实现的,mysql是靠人为取分库分表,而Hbase对用户呈现就是一张表,但是这张表本质上的分布在多个服务器上管理的,这样的好处就是这个表可以无限的扩容,像细胞一样分裂表,存储变大后就会分裂出其他表。对用户来说是透明的扩容

Hbase有一个主服务器Master,从服务器管理分,一般从服务器和datanode放在一起

Hbase的业务需求比较简单

获取基站数据

把基站信信息放到hafka中,基站数据到kafka中间加入kafka生产者,与基站信息对接采用socket协议

这样kafka汇聚了基站传过来的位置信息与用户相关信息到一起 ,kafka中与topic主题,这样互不干扰

进来一下kafka实时数据如何取处理?

redis是内存数据库,快,持久化机制

 

 

 

 

 

 

 

 

 

 

 

 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!