如何在Databricks集群中添加Spark配置

问题描述 投票:0回答:3

我正在使用 Spark Databricks 集群,并且想要添加自定义 Spark 配置。
有一个关于此的 Databricks 文档,但我没有得到任何线索,我应该如何以及进行哪些更改。有人可以分享配置 Databricks 集群的示例吗?
有没有办法查看Databricks集群中Spark的默认配置。

apache-spark databricks azure-databricks
3个回答
2
投票
  1. 您可以在 Databricks 工作区的计算部分中设置集群配置。 转到计算(并选择集群)> 配置 > 高级选项CLuster config under advanced options

  2. 或者,您可以通过笔记本设置配置。

    %蟒蛇 Spark.conf.set(“spark.sql.属性名称”,值)


0
投票

您有多种方法来设置默认集群配置:

  1. 在“计算”选项卡中手动操作(如前所述): 转到“计算”>“选择集群”>“高级选项”>“Spark” sparkexample

  2. 通过笔记本(如前所述): 在 databricks 笔记本的单元格中,您可以通过运行“spark.conf.set”命令来设置该会话/作业的任何 Spark 配置,如

    spark.conf.set("spark.executor.memory","4g")

  3. 使用 JOB CLI API: 如果您的目标是在多环境方式(例如开发、暂存、生产)中以编程方式部署作业: databricksjobapi

有用的链接!


0
投票

理想情况下应该在集群高级选项中有 Spark 配置。

也可以通过 pyspark 代码进行设置。

还有您可以创建的策略,您的集群应该使用它,以便安装库,我认为也可以进行配置。 A

© www.soinside.com 2019 - 2024. All rights reserved.