RDD(十)——案例实操

亡梦爱人 提交于 2020-02-27 16:01:51

需求:

数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。

 

样本如下:

1516609143867 6 7 64 16

1516609143869 9 4 75 18

1516609143869 1 7 87 12

 

思路分析如下:

第一步:过滤无关的数据字段,只留下省份,广告
第二步:省份与广告可以组成一个key,value就是该广告在该省份的点击次数
第三步:把省份这个字段作为key,将数据分隔到不同的集合;
第四步:对分区内的数据按照value进行排序,使得在集合内实现有序
最后取出前三名
 
实现代码如下:
package example

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

  //需求:统计出每一个省份广告被点击次数的TOP3
  object Example {

    def main(args: Array[String]): Unit = {

      //1.初始化spark配置信息并建立与spark的连接
      val sparkConf = new SparkConf().setMaster("local[*]").setAppName("example")
      val sc = new SparkContext(sparkConf)

      //2.读取数据生成RDD:TS,Province,City,User,AD
      val line = sc.textFile("E:/idea/spark3/in/agent.log")

      //3.按照最小粒度聚合:((Province,AD),1)
      val provinceAdToOne = line.map { x =>
        val fields: Array[String] = x.split(" ")
        ((fields(1), fields(4)), 1)
      }

      //4.计算每个省中每个广告被点击的总数:((Province,AD),sum)
      val provinceAdToSum: RDD[((String, String), Int)] = provinceAdToOne.reduceByKey(_ + _)

      //5.将省份作为key,广告加点击数为value:(Province,(AD,sum))
      val provinceToAdSum: RDD[(String, (String, Int))] = provinceAdToSum.map(x => (x._1._1, (x._1._2, x._2)))

      //6.将同一个省份的所有广告进行聚合(Province,List((AD1,sum1),(AD2,sum2)...))
      val provinceGroup: RDD[(String, Iterable[(String, Int)])] = provinceToAdSum.groupByKey()

      //7.对同一个省份所有广告的集合进行排序并取前3条,排序规则为广告点击总数
      val provinceAdTop3: RDD[(String, List[(String, Int)])] = provinceGroup.mapValues { x =>
        x.toList.sortWith((x, y) => x._2 > y._2).take(3)
      }

      //8.将数据拉取到Driver端并打印
      provinceAdTop3.saveAsTextFile("E:/idea/spark3/out/example")

      //9.关闭与spark的连接
      sc.stop()
    }
  }

 

 
 
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!