Spark操作DataFrame方法汇总

一世执手 提交于 2019-11-27 08:06:30
1. 读取csv文件变成DataFrame
val data = spark.read.csv("/data/session01.csv")


2.查看df每一列类型
data.dtypes


3.查看df数据
data.show()
 
def show(numRows: Int, truncate: Int, vertical: Boolean): Unit 
参考:http://spark.apache.org/docs/2.3.1/api/scala/index.html#org.apache.spark.sql.Dataset
vertical true和false的区别: 表格格式的问题
原数据:
year  month AVG('Adj Close) MAX('Adj Close)
1980  12    0.503218        0.595103
1981  01    0.523289        0.570307
1982  02    0.436504        0.475256
1983  03    0.410516        0.442194
1984  04    0.450090        0.483521
data.show(3, false)
结果:
-RECORD 0-------------------
 year            | 1980
 month           | 12
 AVG('Adj Close) | 0.503218
 AVG('Adj Close) | 0.595103
-RECORD 1-------------------
 year            | 1981
 month           | 01
 AVG('Adj Close) | 0.523289
 AVG('Adj Close) | 0.570307


4. 显示表头(第一行)
data.head()


易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!