数据从Apache Spark集群导出。 它包含目录的以下文件结构(=分区)
000002_0 (1GB)
000011_0
000014_0
000015_0
000021_0
000024_0
000027_0
000029_0
......
831542331_data.0.parq (20K)
716761184_data.0.parq
783715959_data.0.parq
953405899_data.0.parq
......
part-r-00000.snappy.parquet (2K)
part-r-00001.snappy.parquet
part-r-00002.snappy.parquet
part-r-00003.snappy.parquet
part-r-00004.snappy.parquet
.......
我假设实际内容存储在大文件(1G)中,相应的元数据存储/映射在较小的文件中。
我想为整个分区生成一个 parquet 文件。有没有办法使用标准 CLI 工具或 PySpark 来做到这一点?