Spark的应用场景
Spark的生态圈 1.Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整的生态系统 2.Spark可以部署在资源管理器YARN之上,提供一站式大数据解决方案 3.Spark所提供的的生态系统可对应以下三种场景: 复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间 基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间 基于实时数据的数据处理:通常时间跨度在数百毫秒到数秒之间 4.Spark生态系统已经成为伯克利数据分析栈(BDAS)中重要的组成部分 5.Spark生态系统主要包括: Spark Core Spark SQL Spark Streaming MLlib GraphX Spark Core提供Spark最基础与最重要的功能,主要包括: SparkContext:通常而言,Driver Application的执行与输出都是通过SparkContext来完成的,在正式提交Application之前,首先需要初始化SparkContext 只需要使用SparkContext提供的 API完成 功能开发 Spark Core中包含了对RDD的API定义 Spark Core提供了创建和操作这些集合的多个API Spark SQL是Spark用来操作结构化数据的程序包 Spark Streaming 支持多种数据源 提供窗口操作