我想使用Spark DataFrameWriter.partitionBy()写入AWS S3。当然,它为每个唯一的分区列值组合写一个单独的目录分支。
DataFrameWriter.partitionBy()
有没有办法从Spark获得DataFrame中存在的分区列值组合,即写入?无需查询“文件系统”(AWS S3对象存储)。
如果你想分区说a和b,你可以只查询你的数据帧df.select($"a",$"b").distinct.show(),这会给你创建的文件夹。
a
b
df.select($"a",$"b").distinct.show()