1,python的码农涉猎Hadoop,首选pyspark 2,开发spark应用,需要知道的几个点: 【1】SQL语句:insert into / overwirte 【2】DataFrame的常用API 【3】UDF函数 【4】Kafka组件使用 【5】Avro序列化 【6】RDD的坑:谨防嵌套使用 来源:oschina链接:https://my.oschina.net/u/107574/blog/2962594 标签 Apache Spark udf Apache Avro Hadoop Kafka