“pip install pyspark”如何避免设置 SPARK_HOME

问题描述 投票:0回答:1

从 pypi.org 安装 PySpark 时

pip install pyspark==3.5.0

似乎没有任何设置SPARK_HOME环境变量的要求。

这是如何运作的?

相反,如果我从

下载“Apache Spark”

https://www.apache.org/dyn/closer.lua/spark/spark-3.5.3/spark-3.5.3-bin-hadoop3.tgz

其中包含PySpark,需要完成以下步骤

  • export SPARK_HOME=/opt/software/spark
  • export PATH=$SPARK_HOME/bin:$PATH
  • export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.9.7-src.zip:$SPARK_HOME/python/lib/pyspark.zip:$PYTHONPATH

“pip install pyspark”如何避免设置 SPARK_HOME ?机制是什么?

python apache-spark pyspark
1个回答
0
投票

无论 PySpark 安装方法如何,您都可以使用

spark-submit
pyspark
运行 PySpark。

如果未设置

SPARK_HOME
spark-submit
pyspark
会尝试通过执行
find-spark-home
脚本自动进行设置。该脚本检查 PySpark 是否已安装 pip。当 pip 安装后,
find_spark_home.py
可在
$VIRTUAL_ENV/bin
中使用。然后
find_spark_home.py
完成剩下的工作,您将在该 Python 脚本中找到更多内容。

因此,只要安装了 Java,就不需要像这三个导出这样的额外配置。但与往常一样,当整个过程基于许多环境变量检查时,就会发生错误。希望有帮助。

© www.soinside.com 2019 - 2024. All rights reserved.