Windows上安装Spark的过程有些繁琐,遇到不少坑,所以整理并记录一下自己的安装和配置步骤:
主要参考链接:
https://blog.csdn.net/qq_28626909/article/details/81632634
https://www.cnblogs.com/cuiocean/p/7630529.html
https://www.cnblogs.com/xuliangxing/p/7279662.html
第1步:在anaconda prompt中安装pyspark:
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
第2步:安装java(必须是jdk8)
官网下载:https://www.oracle.com/technetwork/java/javase/downloads/index.html
环境配置参考:https://www.cnblogs.com/iceb/p/7561752.html
第3步:安装Scala
官网下载:https://www.scala-lang.org/download/
环境配置参考:https://www.cnblogs.com/liuwei6/p/6951240.html
第4步:安装Spark
解压文件,配置路径
win10右击“开始”→ Windows PowerShell(管理员)
运行spark-shell,如果报错,需要查看错误原因。看网上大多数的报错是因为没有安装Hadoop以及缺少winutils文件。
第5步:安装Hadoop(用管理员身份解压)
官网下载:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/
第6步:安装hadoop winutils:
下载:https://github.com/steveloughran/winutils
选择你要的hadoop版本号,比如2.7.1,你只需要下载winutils.exe,然后拷贝到C:\Hadoop\bin(根据你Hadoop解压的路径调整)文件夹中。
如果处理winutil.exe时遇到了ChangeFileModeByMask error (3): ??? 这个问题:
需要在C盘创建tmp/hive文件夹(关键),
然后输入命令行:D:\hadoop\bin\winutils.exe chmod 777 C:/tmp/hive
调整路径参考:https://blog.csdn.net/abc50319/article/details/80284741