当前位置:首页 > CN2资讯 > 正文内容

Windows 10 下单机 Spark 环境搭建

2天前CN2资讯

【目的】

  Windows 10 裸机搭建 Spark 环境,使能运行 PySpark Shell。

【原料】

  • Windows 10 x64

  • jdk-8u162-windows-x64.exe

  • python-3.6.7-amd64.exe

  • spark-2.3.2-bin-hadoop2.7.tgz

  • hadoop-2.7.7.tar.gz

  • winutils.exe

【安装 JDK】

  • 双击 jdk-8u162-windows-x64.exe 安装,后续基本上就是一路“next”。

  • 配置环境变量

# 可通过 echo %JAVA_HOME% 检验 JAVA_HOME: C:\Program Files\Java\jdk1.8.0_162 # 可通过 echo %CLASS_PATH% 检验 CLASS_PATH: C:\Program Files\Java\jdk1.8.0_162\lib # 可通过 echo %PATH% 检验 Path: C:\Program Files\Java\jdk1.8.0_162\bin

【安装 Python3】

  • 双击 python-3.6.7-amd64.exe 安装

  • 为了便于代码补全,建议安装以下两个第三方包

# 安装ipython pip3 install ipython -i https://pypi.doubanio.com/simple/ # 安装pyreadline pip3 install pyreadline -i https://pypi.doubanio.com/simple/

【安装 Spark】

  • 到 http:///downloads.html  下载 spark-2.3.2-bin-hadoop2.7.tgz 并解压,walker 解压到了 D:\spark 目录。

  • 到这里,pyspark 已经可以运行了,但会提示找不到 winutils.exe。

  • 配置环境变量

SPARK_HOME: D:\spark\spark-2.3.2-bin-hadoop2.7 PATH: D:\spark\spark-2.3.2-bin-hadoop2.7\bin

【安装 Hadoop】

  • 到 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/ 下载 hadoop-2.7.7.tar.gz 并解压。如果报错“Can not create symbolic link : 客户端没有所需特权。”,以管理员身份运行解压软件后解压即可。

  • 配置环境变量

HADOOP_HOME: D:\spark\hadoop-2.7.7 PATH: D:\spark\hadoop-2.7.7\bin
  • 修改 D:\spark\hadoop-2.7.7\etc\hadoop\文件,否则可能报类似这种错误“Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd”

# 因为 JAVA_HOME 环境变量有空格,所以做如下修改 set JAVA_HOME=%JAVA_HOME% # --->>> set JAVA_HOME=C:\PROGRA~1\Java\\jdk1.8.0_162
  • 开 cmd 输入 hadoop version,有如下输出即正常

Hadoop 2.7.7 Subversion Unknown -r c1aad84bd27cd79c3d1a7dd58202a8c3ee1ed3ac Compiled by stevel on 2018-07-18T22:47Z Compiled with protoc 2.5.0 From source with checksum 792e15d20b12c74bd6f19a1fb886490 This command was run using /D:/spark/hadoop-2.7.7/share/hadoop/common/hadoop-common-2.7.7.jar

【winutils.exe】

  • 到 https:///steveloughran/winutils 下载对应版本的 winutils.exe,放入 D:\spark\hadoop-2.7.7\bin。

【Python 脚本测试】

  • 脚本如下(t.py)

from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) print('***************************** %s' % sc.appName) sc.stop()
  • 用 spark-submit t.py 命令运行脚本,包含如下输出即正确。

***************************** My App

【FAQ】

  • 报错 ModuleNotFoundError: No module named 'resource'

      可能你用的 spark 版本对 Windows 10 太新了,换成 Spark 2.3.2 或以下的版本即可。

【相关阅读】

  • windows10上配置pyspark工作环境

*** walker ***

    你可能想看:

    扫描二维码推送至手机访问。

    版权声明:本文由皇冠云发布,如需转载请注明出处。

    本文链接:https://www.idchg.com/info/27524.html

    分享给朋友:

    “Windows 10 下单机 Spark 环境搭建” 的相关文章

    获取最佳VPS优惠码的终极指南

    VPS优惠概述 在当今数字化时代,虚拟专用服务器(VPS)成为许多人理想的选择。VPS是一种能提供比共享主机更高性能、更多自主控制权的网络托管方式。对于个人和企业用户来说,使用VPS无疑能提升网站的加载速度以及平台的稳定性。它的高级配置和灵活性,为用户在资源管理上提供了极大的便利。 VPS的优势体现...

    最便宜的域名注册平台推荐与选择技巧

    在创建一个新网站时,域名是一个不可或缺的部分。众所周知,一个好的域名能够提升品牌形象,也让用户更容易记住。选择便宜的域名注册平台,可以让我们在网站建设的开销上更加省钱。这里有几个我认为特别值得关注的平台,可能会对你有帮助。 1.1 NameCheap的优势与价格分析 让我先谈谈NameCheap。说...

    RFCHOST评论:高性能VPS与流媒体解锁的完美选择

    RFCHOST概述 RFCHOST是一家自2015年成立的公司,隶属于上海花卷科技。作为一家新兴的网络服务企业,RFCHOST专注于提供国际线路深层挖掘与构造网络通信服务的一体化解决方案。我一直关注着这个快速发展的品牌,尤其是它在香港和洛杉矶VPS业务上的持续投入与创新。 随着全球数字化进程的加速,...

    搬瓦工查看流量使用的最佳方法与管理策略

    在使用搬瓦工(BandwagonHost)这家VPS提供商时,了解流量的相关信息是非常重要的。搬瓦工的流量套餐设计十分灵活,满足了不同用户的需求。每个VPS方案都设有流量限制,比如每月500GB或1TB,这些限制会直接影响到我们如何使用这些资源。用户在选择方案时,应该充分考虑自己的日常使用习惯,以便...

    电信163回程路由怎么样?性能与用户体验全解析

    电信163回程路由的基本概况 在了解电信163回程路由之前,首先让我来解释一下它到底是什么。电信163回程路由是中国电信所提供的一种数据传输路径,主要用于支撑用户从国外访问中国国内的数据流。这条路由有助于保证数据在传输过程中的稳定性与可靠性,因此对于使用网络服务的企业或个人尤为重要。 电信163回程...

    台湾原生IP的优势与选择指南,助你畅享极速网络体验

    在信息化时代,网络的使用变得愈发普遍,原生IP的概念逐渐进入大众视野。简单来说,台湾原生IP指的是源自台湾本地的互联网协议地址。与其他地区的IP不同,台湾原生IP能够有效实现更快速、更稳定的网络连接,给用户带来良好的上网体验。我们生活在一个无时无刻不在与网络打交道的时代,理解这项技术的内涵至关重要。...