谈谈我对大数据技术的一些理解。

徘徊边缘 提交于 2019-11-30 05:53:44

近来项目组准备把批量迁移到大数据环境下,再加上新的业务需求,需要进行一些大规模数据的加工,所以号召团队往大数据方向靠,最近我也买了几本书,网上找了一些资料学习了一下,所以想谈谈自己对这门技术的粗略了解。
大数据技术最近的火热,主要源自于google的三篇论文,
Google File System中文版
Google Bigtable中文版
Google MapReduce中文版
这几篇文章,因为时间原因,也没有时间去全部阅读,只是大概的有所了解。
HDFS 架构
首先就是大数据的存储基础,HDFS。HDFS分布式的存储数据,在多个节点上备份数据,使得数据的存储成本大大降低。高容错性、适合批处理、成本低、适合大数据处理。这些都是其非常显著的优点。
MAPREDUCE
分布式计算引擎,通过MAP操作,将任务分为多个子任务,分配给集群,而Reduce工作将各个集群的计算结果合在一起,返回给调度者。因为期间的工作,需要多次的跟硬盘进行IO操作,所以极大的影响了效率,以至于后面出现更加优秀的SPARK计算引擎。
现在,在面对大规模数据的时候,我们能把数据存起来,同时,我们还能够把数据进行汇总。但是,用MapReduce直接进行编程,试过的人都知道,这是一件非常痛苦的事情。而,我们已经非常习惯使用关系型数据库,使用SQL语句去操作数据。故,HIVE出现了,我们在前台写入SQL语句,HIVE自动的将其翻译成MapReduce操作,极大的砍去了开发MapRedeuce程序的冗余工作。
这里需要提一下Hbase,很多同学分不清两者的的关系,HBase是一种NoSQL,通常被称为Hadoop Database,就是一种数据库。在非关系型数据库中,我们可以把HBase看成是Oracle,而HIVE就是SQLdevelopler。
后来,我们用着用着,发现HIVE因为底层的原因,还是不好用,比较慢,这时候,Cloudera公司的impala就出现了。Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。
上文提到了,因为mapreduce操作,在分布式计算中,需要多次跟硬盘进行IO操作,我们就在想,有没有一种可能,在分布式计算时,尽量少的于硬盘进行IO,而是跟内存进行IO。这个时候,Spark诞生了。
今天先写到这里,以后再写。。。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!