pyspark dataframe 去重

不羁的心 提交于 2020-04-10 13:12:13

pyspark dataframe 去重

两种去重,一种是整行每一项完全相同去除重复行,另一种是某一列相同去除重复行。

整行去重

dataframe1 = dataframe1.distinct()

某一列或者多列相同的去除重复

df = df.select("course_id", "user_id", "course_name")
# 单列为标准
df1 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id"]])
# 多列为标准
df2 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id", "course_name"]])

原文链接:https://blog.csdn.net/weixin_42864239/article/details/99672657

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!