【Spark SQL】1、初探大数据及Hadoop的学习
初探大数据 centos 6.4 CDH5.7.0 系列http://archive.cloudera.com/cdh5/cdh/5/ 生产或测试环境选择对应CDH版本时,一定要采用尾号一样的版本 OOPTB apache-maven-3.3.9-bin.tar.gz Jdk-7u51-linux-x64.tar.gz Zeppelin-0.7.1-bin.tgz Hive-1.1.0-cdh5.7.0.tar.gz hadoop-2.6.0-cdh5.7.0.tar.gz Mysql-connector-java.5.1.27.bin.jar Scala-2.11.8.tar.gz spark-2.1.0-bin-2.6.0-cdh5.7.0 大数据概述 数据量 速度 多样性、复杂性 基于高度分析的新价值 Hadoop 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 Apache顶级项目 访问网站 projetName.apache.org 包括 HSFS/YARN/MapReduce 狭义Hadoop VS 广义Hadoop 狭义的Hadoop:是一个适合大数据分布式存储HDFS、分布式计算MapReduce和资源调度YARN的平台 广义的Hadoop:指的是Hadoop生态系统