我在 databricks 上有一个数据框,我想在其上使用 RDD api。从目录中读取后,数据帧的类型为
pyspark.sql.connect.dataframe.Dataframe
。我发现这与spark connect有关。在关于 Spark Connect 的文档中,它说,
在 Spark 3.4 中,Spark Connect 支持大多数 PySpark API,包括 DataFrame、Functions 和 Column。但不支持 SparkContext、RDD 等部分 API。
有什么办法可以解决这个问题吗?
我在 Databricks 上的 rdd 上遇到了类似的问题,但由于您没有分享有关您的问题的更多详细信息,以下是我解决问题的方法:
[NOT_IMPLEMENTED] rdd is not implemented.
解决此问题的可能替代方案: