Dataproc:从边缘节点向 YARN 提交 Spark 作业时对集群 HDFS 的依赖

问题描述 投票:0回答:1

我有一个正在运行的 Dataproc 集群。我想使用

spark-submit
从集群外部的边缘节点直接向 YARN 提交 Spark 作业。理想情况下
spark-submit
应该只需要访问 YARN 资源管理器地址,因此我们将防火墙规则配置为仅允许这样做,但作业提交失败,因为它需要访问集群的 HDFS。

问题:

  1. 为什么
    spark-submit
    需要访问HDFS?
  2. 有办法避免这种情况吗?
apache-spark google-cloud-dataproc
1个回答
0
投票

与属性有关

spark.yarn.stagingDir
1
spark-submit
使用该目录来暂存 jar 和配置,以便 YARN 可以访问它们并将它们分发给执行器。默认值为当前用户在 HDFS 中的主目录,但可以将其设置为 GCS 目录以避免 HDFS,例如:

spark-submit --conf spark.yarn.stagingDir=gs://my-bucket/spark-staging/
© www.soinside.com 2019 - 2024. All rights reserved.