RDD 未在 pyspark.sql.connect.dataframe.Dataframe 上实现错误

问题描述 投票:0回答:1

我在 databricks 上有一个数据框,我想在其上使用 RDD api。从目录中读取后,数据帧的类型为

pyspark.sql.connect.dataframe.Dataframe
。我发现这与spark connect有关。在关于 Spark Connect 的文档中,它说,

在 Spark 3.4 中,Spark Connect 支持大多数 PySpark API,包括 DataFrame、Functions 和 Column。但不支持 SparkContext、RDD 等部分 API。

有什么办法可以解决这个问题吗?

apache-spark pyspark databricks rdd spark-connect
1个回答
0
投票

我在 Databricks 上的 rdd 上遇到了类似的问题,但由于您没有分享有关您的问题的更多详细信息,以下是我解决问题的方法:

[NOT_IMPLEMENTED] rdd is not implemented.

解决此问题的可能替代方案:

  • 将集群访问模式从共享更改为单用户
  • 升级或降级 dbr 版本。 15.5 版本可能可以工作
  • 设置集群配置:
    • spark.databricks.pyspark.enablePy4JSecurity false
    • spark.databricks.pyspark.trustedFilesystems org.apache.spark.api.java.JavaRDD
  • 使用 Dataframe API 替代方案
© www.soinside.com 2019 - 2024. All rights reserved.