单机版的Spark机器上只要安装JDK、Scala、Spark
jdk 安装教程见 centos 7安装jdk8 http://www.jianshu.com/p/9a0acb242b36
1 安装Spark依赖的Scala
打开地址:http://www.scala-lang.org/
在Linux服务器的opt目录下新建一个名为scala的文件夹,下载scala-2.12.2.tgz包
执行命令,进入到该目录:
cd /opt/scala
执行命令进行解压缩:
tar -xvf scala-2.12.2
1.2 配置环境变量
编辑/etc/profile这个文件,在文件中增加一行配置:
export SCALA_HOME=/opt/scala/scala-2.12.2
在该文件的PATH变量中增加下面的内容:
${SCALA_HOME}/bin
环境变量配置完成后,执行下面的命令:
source /etc/profile
1.3 验证Scala
执行命令:
scala -version
如图:
2 下载和解压缩Spark
2.1下载
打开下载地址:
http://spark.apache.org/downloads.html
在Linux服务器的opt目录下新建一个名为spark的文件夹,下载 spark-2.4.1-bin-hadoop2.7.tgz压缩包
下载后得到了大约200M的文件: spark-2.4.1-bin-hadoop2.7.tgz
2.2解压
进入到该目录内,也就是执行下面的命令:
cd /opt/spark
执行解压缩命令:
tar -zxvf spark-2.4.1-bin-hadoop2.7.tgz
3 Spark相关的配置
说明:因为我们搭建的是基于hadoop集群的Spark集群,所以每个hadoop节点上我都安装了Spark,都需要按照下面的步骤做配置,启动的话只需要在Spark集群的Master机器上启动即可,我这里是在hserver1上启动。
3.1 配置环境变量
编辑/etc/profile文件,增加
export SPARK_HOME=/opt/spark/spark-2.4.1-bin-hadoop2.7
上面的变量添加完成后编辑该文件中的PATH变量,添加
${SPARK_HOME}/bin
注意:因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文件同名,为了避免同名文件冲突,这里不在PATH变量里添加$SPARK_HOME/sbin只添加了$SPARK_HOME/bin。
编辑完成后,执行命令:
source /etc/profile
3.2 配置conf目录下的文件
对/opt/spark/spark-2.4.1-bin-hadoop2.7/conf目录下的文件进行配置。
3.2.1 新建spark-env.h文件
执行命令,进入到/opt/spark/spark-2.4.1-bin-hadoop2.7/conf目录内:
cd /opt/spark/spark-2.4.1-bin-hadoop2.7/conf
以spark为我们创建好的模板创建一个spark-env.h文件,命令是:
cp spark-env.sh.template spark-env.sh
编辑spark-env.h文件,在里面加入配置(具体路径以自己的为准):
export SCALA_HOME=/opt/scala/scala-2.12.2
export JAVA_HOME=/usr/local/java/jdk1.8.0_191
export SPARK_HOME=/opt/spark/spark-2.4.1-bin-hadoop2.7
export SPARK_MASTER_IP=自己的机器名
export SPARK_EXECUTOR_MEMORY=128M
3.2.2 新建slaves文件
执行命令,进入到/opt/spark/spark-2.4.1-bin-hadoop2.7/conf目录内:
cd /opt/spark/spark-2.4.1-bin-hadoop2.7/conf
以spark为我们创建好的模板创建一个slaves文件,命令是:
cp slaves.template slaves
编辑slaves文件,里面的内容为:
localhost
4 测试单机模式的Spark
4.1 用单机模式运行Spark示例程序
上面的配置完成后,不需要启动任何东西,直接执行下面的命令即可。
进入到主目录,也就是执行下面的命令:
cd /opt/spark/spark-2.4.1-bin-hadoop2.7
执行命令运行计算圆周率的Demo程序:
./bin/run-example SparkPi 10
几秒后,执行完成
如图:
4.2 启动Spark Shell命令行窗口
进入到主目录,也就是执行下面的命令:
cd /opt/spark/spark-2.4.1-bin-hadoop2.7
执行命令,启动脚本:
./bin/spark-shell
参考:https://blog.csdn.net/pucao_cug/article/details/72353701