pyspark dataframe 去重
两种去重,一种是整行每一项完全相同去除重复行,另一种是某一列相同去除重复行。
整行去重
dataframe1 = dataframe1.distinct()
某一列或者多列相同的去除重复
df = df.select("course_id", "user_id", "course_name")
# 单列为标准
df1 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id"]])
# 多列为标准
df2 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id", "course_name"]])
原文链接:https://blog.csdn.net/weixin_42864239/article/details/99672657
来源:oschina
链接:https://my.oschina.net/u/4342549/blog/3227705