Spark性能优化之数据结构
在Spark性能优化方面, 数据结构是重点之一。一个合理的数据结构设计不仅能够降低内存消耗,同时也能节约运行时间。下面主要针对Long与String数据类型做分析,看一面两个例子对比 1. 在RDD数据类型中,使用Long的情况 package com.haizhi.aidp import java.util.Date import com.haizhi.aidp.bigdata.SparkHelper import com.haizhi.aidp.common.base.BaseTool._ import org.apache.log4j.{Level, Logger} /** * Hello world! * */ object TestJoin { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(Level.ERROR) val spark = SparkHelper.getSparkContext() val rdd1 = spark.makeRDD(1 to 30000000) .flatMap(i => (0 to i % 13).map(j => (i+j, j))) .map(x => { val src = md5ToLong(md5(x._1.toString))