pySpark RDD 白名单类问题

问题描述 投票:0回答:1

在 azure databricks 笔记本中启用统一目录集群之前,但在更改共享用户启用集群之后,我使用了下面的代码。我无法使用下面的逻辑,启用统一目录集群后我们应该如何在我的笔记本中实现类似的逻辑。请协助。

list= df_list.rdd.map(lambda x: x[0]).collect()
hlist = df_list.rdd.map(lambda x: x[1]).collect()

unity 目录启用集群笔记本错误:

py4j.security.Py4JSecurityException: Method public org.apache.spark.rdd.RDD org.apache.spark.api.java.JavaRDD.rdd() is not whitelisted on class class org.apache.spark.api.java.JavaRDD
pyspark databricks azure-databricks rdd
1个回答
0
投票

RDD 和 Spark Context 等低级 API 在使用 Unity Catalog - 共享计算时无法工作。

您需要使用单用户集群或迁移代码以使用高级 Dataframe API。

本页有所有此类示例,您可以参考。

https://python.plainenglish.io/databricks-non-rdd-scripts-for-rdds-1ba15872822e

© www.soinside.com 2019 - 2024. All rights reserved.