pycharm搭建spark环境

痴心易碎 提交于 2019-11-29 21:28:49
pycharm搭建spark环境
  • 安装python环境
    windows下有安装包,自行下载安装即可
  • 安装spark环境
    • 官网下载 spark-2.3.1-bin-hadoop2.7 包,解压即可
    • 配置
      HADOOP_HOME:D:\softwares\Java\hadoop-2.7.7
      SPARK_HOME:D:\softwares\Java\spark-2.3.1-bin-hadoop2.7
      PATH:%SPARK_HOME%\bin;%HADOOP_HOME%\bin;
      
  • 配置python-spark环境
    • 将spark目录 D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib 下的 py4j-0.10.7-src.zip 解压
    • 将解压后的 py4j 放到 python 目录 D:\softwares\Java\Python36\Lib\site-packages
    • 提示:python 和 spark 的安装目录自行替换
  • 下载安装pycharm
    • 创建项目
    • 创建python文件,内容如下:
      from pyspark import SparkConf, SparkContext
      
      conf = SparkConf().setMaster('local').setAppName('JackManWu')
      sc = SparkContext(conf=conf)
      lines = sc.textFile("D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\README.md")
      print(lines.count())
      
    • 点击run运行,结果如下:
      2018-08-20 17:30:13 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
      Setting default log level to "WARN".
      To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
      2018-08-20 17:30:15 WARN  Utils:66 - Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
      103
      
    • 运行是没有问题,但是在pycharm中,pysparkSparkConfSparkContext 会有红色波浪线,而且也没有spark的代码智能提示、补全等,极不方便,如下方法可以解决:
      • 点击File->Settings,在左侧导航栏找到自己的项目,点击 Project Structure ,在面板右侧,点击 Add Content Root ,将spark目录 D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib 下的 pyspark.zip 的文件添加进项目中,即可解决红色波浪线及智能提示补全问题。
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!