自定义Python环境创建spark任务
说明: spark2.1.0(含)以下的版本不支持Python3.6 安装注意版本,请先检查版本 步骤 1. 创建虚拟python环境 这个不多介绍了,不管是通过annaconda还是virtualenv,创建好你自己的python环境。如果你也碰到了离线的平台,建议自己用docker做一个和服务器一样的系统版本,在上面完成虚拟的环境的创建,再将其拷贝出来; 2. 打包虚拟环境并将其上传hdfs 创建好环境后,进入到环境所在的文件夹,例如你的环境是 ***/***/py35, cd到py35下,使用打包命令将当前目录下的文件打包 zip -r py35.zip ./* 在当前文件夹下,将其上传至hdfs hadoop fs -put ***/***/py35.zip hdfs://***/***/***/env/ 3. 使用spark-submit命令引用 client模式下 --conf spark.yarn.dist.archives=hdfs://***/***/***/env/py35.zip#py35\ --conf spark.pyspark.driver.python=./py35/bin/python \ --conf spark.pyspark.python=./py35/bin/python \ 注意 archivs命令后的#是必须的