pyspark dataframe 去重

两种去重，一种是整行每一项完全相同去除重复行，另一种是某一列相同去除重复行。

整行去重

dataframe1 = dataframe1.distinct()

某一列或者多列相同的去除重复

df = df.select("course_id", "user_id", "course_name")
# 单列为标准
df1 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id"]])
# 多列为标准
df2 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id", "course_name"]])

原文链接：https://blog.csdn.net/weixin_42864239/article/details/99672657

来源：oschina

链接：https://my.oschina.net/u/4342549/blog/3227705

标签

subset

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!