新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析
1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的。 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)BI工具通过JDBC连接SparkSQL查询数据 4)Spark SQL支持Python、Scala、Java和R语言 5)Spark SQL不仅仅是SQL 6)Spark SQL远远比SQL要强大 7)Spark SQL处理数据架构 8)Spark SQL简介 Spark SQL is a Spark module for structured data processing 9)Spark SQL的愿景 a)Write less code 对不同的数据类型使用统一的接口来读写。 b)Read less data 提升大数据处理速度最有效的方法就是忽略无关的数据。 (1)使用列式存储(columnar formats),比如Parquet、ORC、RCFile (2)使用分区裁剪(partitioningpruning),比如按天分区,按小时分区等 (3)利用数据文件中附带的统计信息进行剪枝:例如每段数据都带有最大值、最小值和NULL值等统计信息,当某一数据段肯定不包含查询条件的目标数据时,可以直接跳过这段数据。(例如字段age某段最大值为20,但查询条件是>50岁的人时