将DataSet中的数据Sink到哪里去。使用的是对应的OutPutFormat,也可以使用自定义的sink,有可能写到hbase中,hdfs中。
- writeAsText() / TextOutputFormat ,以String的形式写入
-
writeAsCsv(...) / CsvOutputFormat,以CSV的方式写进去
-
print() / printToErr() / print(String msg) / printToErr(String msg)以标准输出
writeAsText
object DataSetSinkApp {
def main(args: Array[String]): Unit = {
val environment = ExecutionEnvironment.getExecutionEnvironment
val data = 1.to(10)
val text = environment.fromCollection(data)
val filePath = "E:/test"
text.writeAsText(filePath)
environment.execute("DataSetSinkApp")
}
}
如果E:/test文件或者文件夹存在,将无法执行成功。除非增加一个WriteMode.OVERWRITE
text.writeAsText(filePath, WriteMode.OVERWRITE)
这样就在E盘下新建了一个test文件,内容是1到10。
那么如何保存到文件夹中?
text.writeAsText(filePath, WriteMode.OVERWRITE).setParallelism(2)
设置并行度为2,这样就存到test文件夹下,两个文件1和2
默认情况下,不设置并行度,会把结果写到一个文件中,如果设置并行度,那么每一个并行度都对应一个输出。
Java
public static void main(String[] args) throws Exception {
ExecutionEnvironment executionEnvironment = ExecutionEnvironment.getExecutionEnvironment();
List<Integer> info = new ArrayList<>();
for(int i = 1;i <=10; i++) {
info.add(i);
}
DataSource<Integer> data1 = executionEnvironment.fromCollection(info);
String filePath = "E:/test2";
data1.writeAsText(filePath, FileSystem.WriteMode.OVERWRITE);
executionEnvironment.execute("JavaDataSetSinkApp");
}