在CentOS下升级PySpark使用Python 3.x
当前Spark官网的最新版本尚未直接支持Python 3.x版本,经过一番折腾,集合网上各种说明,整理了如下的PySpark升级Python 3.x的步骤 (经实际操作可成功升级):
配置环境:
- 操作系统:CentOS Linux release 7.4.1708(Core)
- JAVA: 1.8.0_151
- Hadoop: 3.0.0
- Spark: 2.2.1
- Python: 3.6.4
配置步骤:
1. 使用 python –V 检查当前版本号,centos7默认配置的应该是python 2.x
2. 安装gcc,用于编译Python源码 yum install gcc
3. 安装zlib相关依赖包 yum -y install zlib*
4. 在Python官网https://www.python.org/ftp/python/下载最新版本的Python,我下载的是3.6.4
5. 解压下载下来的python安装包:tar –zxvf Python-3.6.4.tgz
6. 进入 Python-3.6.4 文件夹:cd Python-3.6.4
7. 修改 Modules/Setup.dist:vi Modules/Setup.dist
#zlib zlibmodule.c -I$(prefix)/include -L$(exec_prefix)/lib–lz
把这行注释去掉
8. 编译安装
./configure
make all
make install
9. 查看安装后Python3的版本号:python3 –V
10. 配置Spark使用python3启动:
修改环境配置文件:vi ~/.bashrc,添加如下的环境变量设置
export PYSPARK_PYTHON=python3
保存后,使文件生效:source ~/.bashrc
11. 启动pyspark,看是否已经使用最新版本的python
作者:otiefang
来源链接:https://blog.csdn.net/otie99/article/details/79342133