当前位置:首页 > 后端开发 > Python pycharm(windows版本)部署spark环境

Python pycharm(windows版本)部署spark环境

6个月前 (05-28)34

  一 部署本地spark环境


1.1  安装好JDK
      下载并安装好jdk1.7,配置完环境变量。
 
1.2 Spark环境变量配置
      去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是 spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应的hadoop版本是2.6

解压下载的文件,假设解压 目录为:D:\Spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6

 

1.3 Hadoop相关包的安装

 

      spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。

  去下载hadoop 2.6编译好的包https://www.barik.net/archive/2015/01/19/172716/,我下载的是hadoop-2.6.0.tar.gz,解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.6.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.6.0。同时去github上下载一个叫做 winutils  的组件,地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 如果没有hadoop对应的版本(此时版本是 2.6),则去csdn上下载 http://download.csdn.net/detail/luoyepiaoxin/8860033,

我的做法是把CSDN这个压缩包里的所有文件都复制到 hadoop_home的bin目录下

 

二  Python环境

   Spark提供了2个交互式shell, 一个是pyspark(基于python), 一个是spark_shell(基于Scala). 这两个环境其实是并列的, 并没有相互依赖关系, 所以如果仅仅是使用pyspark交互环境, 而不使用spark-shell的话, 甚至连scala都不需要安装.

 2.1 下载并安装Anaconda 

   anaconda是一个集成了python解释器和大多数python库的系统,安装anaconda 后可以不用再安装python和pandas numpy等这些组件了。下载地址是 https://www.continuum.io/downloads。将python加到path环境变量中

三  启动pyspark验证

     在windows下命令行中启动pyspark,如图:

    Python pycharm(windows版本)部署spark环境 _ Java侠

 

 四 在pycharm中配置开发环境   

  4.1 配置Pycharm

 
 更详细的材料 参考 https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark

 打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”
 Python pycharm(windows版本)部署spark环境 _ Java侠

 选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。

 

  • SPARK_HOME:Spark安装目录

  • PYTHONPATH:Spark安装目录下的Python目录


    Python pycharm(windows版本)部署spark环境 _ Java侠

     

     

4.2 测试程序

先测试环境是否正确,代码如下:

  

import os
import sys
 
# Path for spark source folder
os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6"
 
# Append pyspark to Python Path
sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python")
 
try:
from pyspark import SparkContext
from pyspark import SparkConf
 
print ("Successfully imported Spark Modules")
 
except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)

  

 
  如果程序可以正常输出: "Successfully imported Spark Modules"就说明环境已经可以正常执行。
  如下图,黄色框内的是具体的spark环境和python环境:
 
Python pycharm(windows版本)部署spark环境 _ Java侠

测试程序代码来源于 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8

转原博客地址:http://blog.csdn.net/huangxia73/article/details/51372557

 

 Python pycharm(windows版本)部署spark环境 _ Java侠

Python pycharm(windows版本)部署spark环境 _ Java侠

 

 

注意:

可能会报没有 py4j ( 它是python用来连接java的中间件)

可以用命令安装:pip install py4j

 

 

作者:dy9776
来源链接:https://www.cnblogs.com/nucdy/p/6776187.html

标签: Python

“Python pycharm(windows版本)部署spark环境” 的相关文章

python基础篇之python3的环境搭建

python基础篇之python3的环境搭建

Python3 可应用于多平台包括 Windows、Linux 和 Mac OS X。 Unix (Solaris, Linux, FreeBSD, AIX,...

sublime配置python运行环境

sublime配置python运行环境

1.sublime下载与插件管理 1.1 下载 官网地址:https://www.sublimetext.com/3 1.2 安装Package Control管理插件...

Windows10下PCL1.8.1以及Python-pcl1.81环境配置的掉发之路

Windows10下PCL1.8.1以及Python-pcl1.81环境配置的掉发之路

       因需要对三维激光点云进行处理,看到有C++下的PCL点云库,和Python下的Python-pcl(脱胎于C++下的PCL),在C+...

Windows系统下的Python环境搭建

Windows系统下的Python环境搭建

-------在网上搜罗了许多Python环境搭建的方法,还是下面这一篇我觉得最详细,搬来作为参考---------- 转自https://zhuanlan.zhihu...

初识Python—环境搭建

初识Python—环境搭建

一、在Windows系统下安装Python (1)访问Python官网https://www.Python.org,并选择“Downloads”,如图 (...

Python生产环境部署(fastcgi,uwsgi)

Python生产环境部署(fastcgi,uwsgi)

Python部署web开发程序的几种方法 fastcgi ,通过flup模块来支持,在nginx里对应的配置指令是 fastcgi_pass ht...

你不得不了解的Python3.x新特性

你不得不了解的Python3.x新特性

  从 3.0 到 3.8,Python 3 已经更新了一波又一波,但似乎我们用起来和 2.7 没有太大区别?以前该怎么写 2.7 的代码现在就怎么写,只不过少数表达方式变了而已。在这篇...

【详细】安装python3.10.0,并配置环境变量

【详细】安装python3.10.0,并配置环境变量

一、安装python3.10.0 ​​​​​​复制网站Welcome to Python.org,在浏览器中打开,即可看到以下页面,按照图中步骤依次操作,在下载完成后,...

Python3.x和Python2.x的一般区别

Python3.x和Python2.x的区别 这个星期开始学习Python了,因为看的书都是基于Python2.x,而且我安装的是Py...

灿灿灿的第十四次python记录——python 3.x属性以及常用的特殊方法

灿灿灿的第十四次python记录——python 3.x属性以及常用的特殊方法

python第十四次记录 一、Python 3.x中的属性 1.可读、可写属性...