大数据开始
大数据 1.大数据概念 大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。《节选自百度百科》 主要解决的是 海量数据的存储、海量数据的分析计算、统一资源管理调度。 存储单位(由小到大):bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 大数据特点:1、volume(大量) 2、velocity(高速) 3、variety(多样) 4、value(低价值密度) 2.Hadoop 1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2、主要解决,海量数据的存储和海量数据的分析计算问题。 3、广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈 2.1三大发行版本 Apache 最原始的版本,对于入门学习最好 Cloudera 在大型互联网企业中用的比较多 Hortonworks 文档较好 2.2Hadoop的优势(4高) 1、高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。 3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。