从 pypi.org 安装 PySpark 时
pip install pyspark==3.5.0
似乎没有任何设置SPARK_HOME环境变量的要求。
这是如何运作的?
相反,如果我从
下载“Apache Spark”https://www.apache.org/dyn/closer.lua/spark/spark-3.5.3/spark-3.5.3-bin-hadoop3.tgz
其中包含PySpark,需要完成以下步骤
export SPARK_HOME=/opt/software/spark
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.9.7-src.zip:$SPARK_HOME/python/lib/pyspark.zip:$PYTHONPATH
“pip install pyspark”如何避免设置 SPARK_HOME ?机制是什么?
无论 PySpark 安装方法如何,您都可以使用
spark-submit
或 pyspark
运行 PySpark。
如果未设置
SPARK_HOME
,spark-submit
或 pyspark
会尝试通过执行 find-spark-home
脚本自动进行设置。该脚本检查 PySpark 是否已安装 pip。当 pip 安装后,find_spark_home.py
可在 $VIRTUAL_ENV/bin
中使用。然后 find_spark_home.py
完成剩下的工作,您将在该 Python 脚本中找到更多内容。
因此,只要安装了 Java,就不需要像这三个导出这样的额外配置。但与往常一样,当整个过程基于许多环境变量检查时,就会发生错误。希望有帮助。