Hadoop纯理论bb,纸上谈兵
大数据基础 定义 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。 大数据的意义不在于数量,在于挖掘数据的价值,探究海量数据间的相关性 基本特征 容量(Volume) :数据的大小决定所考虑的数据的价值和潜在的信息 种类(Variety) :数据类型的多样性 速度(Velocity) :获得数据的速度 可变性(Variability) :妨碍处理和有效管理数据的过程 真实性(Veracity) :数据的质量 复杂性(Complexity) :数据量巨大,来源多渠道 价值(Value) :合理运用大数据,以低成本创造高价值 Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。 它的设计是从单个服务器扩展到千数个机器,每个提供本地计算和存储。 Hadoop框架实现分布式最核心的设计: HDFS 和 MapReduce 其中HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。以及在Hadoop2.x内,YARN框架实现了分布式资源调度。 Hadoop 1.0到Hadoop 2.0架构的变化图如下