centos7 spark 安装

单机版的Spark机器上只要安装JDK、Scala、Spark

jdk 安装教程见 centos 7安装jdk8 http://www.jianshu.com/p/9a0acb242b36

1 安装Spark依赖的Scala

打开地址：http://www.scala-lang.org/

在Linux服务器的opt目录下新建一个名为scala的文件夹，下载scala-2.12.2.tgz包

执行命令，进入到该目录：

cd /opt/scala

执行命令进行解压缩：

tar -xvf scala-2.12.2

1.2 配置环境变量

编辑/etc/profile这个文件，在文件中增加一行配置：

export SCALA_HOME=/opt/scala/scala-2.12.2

在该文件的PATH变量中增加下面的内容：

${SCALA_HOME}/bin

环境变量配置完成后，执行下面的命令：

source /etc/profile

1.3 验证Scala

执行命令：

scala -version

如图：

2 下载和解压缩Spark

2.1下载

打开下载地址：

http://spark.apache.org/downloads.html

在Linux服务器的opt目录下新建一个名为spark的文件夹，下载 spark-2.4.1-bin-hadoop2.7.tgz压缩包

下载后得到了大约200M的文件： spark-2.4.1-bin-hadoop2.7.tgz

2.2解压

进入到该目录内，也就是执行下面的命令：

cd /opt/spark

执行解压缩命令：

tar -zxvf spark-2.4.1-bin-hadoop2.7.tgz

3 Spark相关的配置

说明：因为我们搭建的是基于hadoop集群的Spark集群，所以每个hadoop节点上我都安装了Spark，都需要按照下面的步骤做配置，启动的话只需要在Spark集群的Master机器上启动即可，我这里是在hserver1上启动。

3.1 配置环境变量

编辑/etc/profile文件，增加

export SPARK_HOME=/opt/spark/spark-2.4.1-bin-hadoop2.7

上面的变量添加完成后编辑该文件中的PATH变量，添加

${SPARK_HOME}/bin

注意：因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文件同名，为了避免同名文件冲突，这里不在PATH变量里添加$SPARK_HOME/sbin只添加了$SPARK_HOME/bin。

编辑完成后，执行命令：

source /etc/profile

3.2 配置conf目录下的文件

对/opt/spark/spark-2.4.1-bin-hadoop2.7/conf目录下的文件进行配置。

3.2.1 新建spark-env.h文件

执行命令，进入到/opt/spark/spark-2.4.1-bin-hadoop2.7/conf目录内：

cd /opt/spark/spark-2.4.1-bin-hadoop2.7/conf

以spark为我们创建好的模板创建一个spark-env.h文件，命令是：

cp spark-env.sh.template spark-env.sh

编辑spark-env.h文件，在里面加入配置(具体路径以自己的为准)：

export SCALA_HOME=/opt/scala/scala-2.12.2

export JAVA_HOME=/usr/local/java/jdk1.8.0_191

export SPARK_HOME=/opt/spark/spark-2.4.1-bin-hadoop2.7

export SPARK_MASTER_IP=自己的机器名

export SPARK_EXECUTOR_MEMORY=128M

3.2.2 新建slaves文件

执行命令，进入到/opt/spark/spark-2.4.1-bin-hadoop2.7/conf目录内：

cd /opt/spark/spark-2.4.1-bin-hadoop2.7/conf

以spark为我们创建好的模板创建一个slaves文件，命令是：

cp slaves.template slaves

编辑slaves文件，里面的内容为：

localhost

4 测试单机模式的Spark

4.1 用单机模式运行Spark示例程序

上面的配置完成后，不需要启动任何东西，直接执行下面的命令即可。

进入到主目录，也就是执行下面的命令：

cd /opt/spark/spark-2.4.1-bin-hadoop2.7

执行命令运行计算圆周率的Demo程序：

./bin/run-example SparkPi 10

几秒后，执行完成

如图：

4.2 启动Spark Shell命令行窗口

进入到主目录，也就是执行下面的命令：

cd /opt/spark/spark-2.4.1-bin-hadoop2.7

执行命令，启动脚本：

./bin/spark-shell

参考：https://blog.csdn.net/pucao_cug/article/details/72353701

最后编辑于：2019.04.17 14:37:24