因为要连接spark所以开始配置pycharm远程开发
本地机器是py3,linux也是py3
1、file->setting->project interpreter 新增 python 环境
2.tool->Deployment->Configuration 中新建一个 SFTP
本人在linux上的主目录上新建了一个pyremote文件夹
本地pycharm会上传同步文件到此文件夹
3.修改Mappings
注意:Mappings 中 Local path 路径正斜杠要修改一下改为反斜杠,否则可能会无法识别导致报错
4.设置代码自动在服务器上进行同步
tools->Deployment->Options
5.configuration 中更改运行参数
1)、因为是远程环境,Environment Variables 中需要指明服务器端 python 路径,spark 路径,java 路径
点击修改运行环境
PYTHONUNBUFFERED > 1
SPARK_HOME > /usr/local/spark
JAVA_HOME > /usr/local/java
HADOOP_HOME > /usr/local/hadoop
PYTHONPATH > /usr/bin/python
2)、如果有已经写好的配置,可以直接复制
3)、每个py文件都有一个自身运行的配置
a、配置名称一般是与py文件相同的,配置名称可以修改,这个配置指向的py文件也可以修改
b、远程连接运行py文件,每个文件都要编写配置修改环境,所以为了方便,可以复制一个已经写好的配置文件,并且修改器指向的py文件
注意:
6.安装 py4j,pyspark相关库
可以在 file->setting->project interpreter 下载安装 py4j,pyspark 等包
也可以在linux上利用 pip3 安装
7.配置中遇到的一些常见错误:
1).未安装pyspark-stubs
2).py4j 版本不兼容,重新下载匹配的版本
3).检查edit configuration 中 python interpreter 是否选择正确
参考:https://blog.csdn.net/u013305783/article/details/85243187