spark写入mongo，性能提升10倍+

原来代码：

finalDf.rdd.repartition(100).foreach(itm => {
   val InsertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3))
    //单条插入：
   mongoConn.withCollectionDo(new WriteConfig(databaseName,
    ResultCol, Option(MongoConn)), { col: MongoCollection[Document] => col.insertOne(InsertOne) })
  })

修改后：

val insertRdd = finalDf.rdd.coalesce(100).map(itm => {
   val insertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3))
        insertOne
  })
  //批量写
    MongoSpark.save(insertRdd)

由于是从s3上往阿里云的mongo上插入，通过ping命令，知道ping一次大概要2ms，如果单条查，每一次插入相当于一次ping，时间都花在了网络上
，另外批量插入，mongo的压力也小，如图1.为批量插入
在这里插入图片描述

图2位单条插入
在这里插入图片描述

来源：CSDN

作者：功夫老五

链接：https://blog.csdn.net/weixin_39031707/article/details/103980197

标签

mongo

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!