Spark2.0-RDD分区原理分析
3 月,跳不动了?>>> Spark分区原理分析 介绍 分区是指如何把RDD分布在spark集群的各个节点的操作。以及一个RDD能够分多少个分区。 一个分区是大型分布式数据集的逻辑块。 那么思考一下:分区数如何映射到spark的任务数?如何验证?分区和任务如何对应到本地的数据? Spark使用分区来管理数据,这些分区有助于并行化分布式数据处理,并以最少的网络流量在executors之间发送数据。 默认情况下,Spark尝试从靠近它的节点读取数据到RDD。由于Spark通常访问分布式分区数据,为了优化transformation(转换)操作,它创建分区来保存数据块。 存在在HDFS或Cassandra中的分区数据是一一对应的(由于相同的原因进行分区)。 默认情况下,每个HDFS的分区文件(默认分区文件块大小是64M)都会创建一个RDD分区。 默认情况下,不需要程序员干预,RDD会自动进行分区。但有时候你需要为你的应用程序,调整分区的大小,或者使用另一种分区方案。 你可以通过方法 def getPartitions: Array[Partition] 来获取RDD的分区数量。 在spark-shell中执行以下代码: val v = sc.parallelize(1 to 100) scala> v.getNumPartitions res2: Int = 20 /