如何使用Spark DataFrameWriter.partitionBy获取分区列值集

Question

我想使用Spark DataFrameWriter.partitionBy()写入AWS S3。当然，它为每个唯一的分区列值组合写一个单独的目录分支。

有没有办法从Spark获得DataFrame中存在的分区列值组合，即写入？无需查询“文件系统”（AWS S3对象存储）。

Answer 1

如果你想分区说a和b，你可以只查询你的数据帧df.select($"a",$"b").distinct.show()，这会给你创建的文件夹。