我有一个正在运行的 Dataproc 集群。我想使用
spark-submit
从集群外部的边缘节点直接向 YARN 提交 Spark 作业。理想情况下 spark-submit
应该只需要访问 YARN 资源管理器地址,因此我们将防火墙规则配置为仅允许这样做,但作业提交失败,因为它需要访问集群的 HDFS。
问题:
spark-submit
需要访问HDFS?与属性有关
spark.yarn.stagingDir
1。 spark-submit
使用该目录来暂存 jar 和配置,以便 YARN 可以访问它们并将它们分发给执行器。默认值为当前用户在 HDFS 中的主目录,但可以将其设置为 GCS 目录以避免 HDFS,例如:
spark-submit --conf spark.yarn.stagingDir=gs://my-bucket/spark-staging/