Spark性能调优

[Spark性能调优] 第四章 : Spark Shuffle 中 JVM 内存使用及配置内幕详情

ぐ巨炮叔叔 提交于 2020-05-07 11:04:01
本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变,Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道 Spark 到底对 JVM 是怎么使用,你怎么可以很有信心地或者是完全确定地掌握和控制数据的缓存空间呢,所以掌握Spark对JVM的内存使用内幕是至关重要的。很多人对 Spark 的印象是: 它是基于内存的,而且可以缓存一大堆数据 ,显现 Spark 是基于内存的观点是错的, Spark 只是优先充分地利用内存而已 。 如果你不知道 Spark 可以缓存多少数据,你就误乱地缓存数据的话,肯定会有问题。 在数据规模已经确定的情况下,你有多少 Executor 和每个 Executor 可分配多少内存 (在这个物理硬件已经确定的情况下),你必须清楚知道你的內存最多能够缓存多少数据;在 Shuffle 的过程中又使用了多少比例的缓存,这样对于算法的编写以及业务实现是至关重要的!!! 文章的后部份会介绍 Spark 2.x 版本 JVM 的内存使用比例,它被称之为 Spark Unified