应该使用什么 Azure Databricks 集群策略来允许 pyspark、R、scala、SQL 并启用 AD 直通身份验证?

问题描述 投票:0回答:1

我最近在使用 Azure databricks 集群并注意到我需要两者 -

  1. AD 直通身份验证,使用 Pyspark 从 ADLS 读取数据
  2. 在同一个集群上使用scala执行不同的任务

应该使用什么集群访问模式以及什么策略可以启用它?

我启用了 AD 直通身份验证,只能在“共享”访问模式下使用 Pyspark 和 SQL,但不想限制其他开发人员选择 scala

databricks azure-databricks databricks-connect
1个回答
0
投票

要启用 AD 直通身份验证并允许在 Azure Databricks 中使用 PySpark、R、Scala 和 SQL 等多种语言,推荐的方法是使用具有“高级”策略的“交互式集群”访问模式。

配置步骤如下:

  1. 在 Azure Databricks 中创建一个新集群,并选择“交互式集群”访问模式。

  2. 在“高级选项”下,选择“高级”策略。

  3. 在“自定义属性”部分,添加以下属性:

    spark.databricks.passthrough.enabled 真 spark.hadoop.fs.adl.oauth2.access.token.provider.type ClientCredential spark.hadoop.fs.adl.oauth2.client.id spark.hadoop.fs.adl.oauth2.credential spark.hadoop.fs.adl.oauth2.refresh.url https://login.microsoftonline.com//oauth2/token

替换为您的 Azure AD 凭据。

  1. 点击“创建集群”创建集群。

此配置将允许 AD 直通身份验证并启用 PySpark、R、Scala 和 SQL 以在集群中使用。

请注意,“高级”策略提供了最大的灵活性和对集群的控制,但它也需要更多配置。如果您想简化集群配置,您可以选择不同的策略,例如“标准”或“高并发”,但这些策略可能不支持 AD 透传身份验证。

© www.soinside.com 2019 - 2024. All rights reserved.