这种配环境的东西配过一次就忘了,还是记录一下吧。
spark运行需要jdk,scala,hadoop。
Hadoop是从cloudera官网下的cloudera manager虚拟机;
jdk版本为1.8;
scala版本为2.11。
cloudera manager(以下简称CM)官网虚拟机下载页链接:https://www.cloudera.com/downloads/quickstart_vms/5-12.html
spark官网下载页链接:https://spark.apache.org/downloads.html
scala官网下载页链接:http://www.scala-lang.org/download/
下载与解压
jdk下载要根据虚拟机是x86 还是x64选择,否则安不上。uname -a 可以查看当前os的版本。
注意scala是要下载linux系统的版本哦,别在windows中下载传到虚拟机中才发现下错了。。。
CM的下载也是需要选择虚拟机类型的,有vmware,virtualBox什么的。
spark下载好之后,tar -zxvf 解压安装,简单不用说。修改配置文件
到spark解压的目录下,有个conf文件夹,里面放置了spark的配置文件。
先修改这个:spark-env.sh,加入以下变量:
HADOOP_CONF_DIR=/etc/hadoop/conf #这个是Hadoop的配置文件目录
SPARK_MASTER_HOST=quickstart.cloudera #spark master的主机名
SPARK_MASTER_WEBUI_PORT=8080 #查看master任务的web页面端口
SPARK_MASTER_PORT=7077 #master的通信端口
SPARK_WORKER_CORES=1 #worker核数
SPARK_WORKER_MEMORY=2g #worker内存占用
SPARK_WORKER_PORT=7078 #worker通信端口
SPARK_WORKER_WEBUI_PORT=8081 #查看worker任务的web页面端口
SPARK_WORKER_DIR=/home/cloudera/Downloads/temp #临时文件存放目录
再修改这个:slaves
这个不用解释了吧,输入worker主机名就好了
再修改最后一个:spark-defaults.conf
spark.master spark://quickstart.cloudera:7077 #设置spark任务提交的目标
完成~
在根目录输入bin/spark-shell 查看quickstart.cloudera:8080 ,如果application那一栏有东西就说明成功了。