how count in pyspark? [closed]

后端未结

关注

 2  1610

野的像风

相关标签:

2条回答

失恋的感觉

2021-01-28 15:00

You can just groupBy title and then count:

import pyspark.sql.functions as f
df.groupBy('title').agg(f.count('*').alias('count')).show()
+-----+-----+
|title|count|
+-----+-----+
|    A|    2|
|    c|    3|
|    b|    1|
+-----+-----+

Or more concisely:

df.groupBy('title').count().show()

+-----+-----+
|title|count|
+-----+-----+
|    A|    2|
|    c|    3|
|    b|    1|
+-----+-----+

0 讨论(0)

天涯浪人

2021-01-28 15:26
hi you can do that
```
 import pandas as pd
 title=["A","b","A","c","c","c"]
 pd.Series(title).value_counts()
```
0 讨论(0)
发布评论:

提交评论
- 加载中...

热议问题