Windows 10 下单机 Spark 环境搭建
【目的】
Windows 10 裸机搭建 Spark 环境,使能运行 PySpark Shell。
【原料】
Windows 10 x64
jdk-8u162-windows-x64.exe
python-3.6.7-amd64.exe
spark-2.3.2-bin-hadoop2.7.tgz
hadoop-2.7.7.tar.gz
winutils.exe
【安装 JDK】
双击 jdk-8u162-windows-x64.exe 安装,后续基本上就是一路“next”。
配置环境变量
【安装 Python3】
双击 python-3.6.7-amd64.exe 安装
为了便于代码补全,建议安装以下两个第三方包
【安装 Spark】
到 http:///downloads.html 下载 spark-2.3.2-bin-hadoop2.7.tgz 并解压,walker 解压到了 D:\spark 目录。
到这里,pyspark 已经可以运行了,但会提示找不到 winutils.exe。
配置环境变量
【安装 Hadoop】
到 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/ 下载 hadoop-2.7.7.tar.gz 并解压。如果报错“Can not create symbolic link : 客户端没有所需特权。”,以管理员身份运行解压软件后解压即可。
配置环境变量
修改 D:\spark\hadoop-2.7.7\etc\hadoop\文件,否则可能报类似这种错误“Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd”
开 cmd 输入 hadoop version,有如下输出即正常
【winutils.exe】
到 https:///steveloughran/winutils 下载对应版本的 winutils.exe,放入 D:\spark\hadoop-2.7.7\bin。
【Python 脚本测试】
脚本如下(t.py)
用 spark-submit t.py 命令运行脚本,包含如下输出即正确。
【FAQ】
报错 ModuleNotFoundError: No module named 'resource'
可能你用的 spark 版本对 Windows 10 太新了,换成 Spark 2.3.2 或以下的版本即可。
【相关阅读】
windows10上配置pyspark工作环境
*** walker ***