将 Spark 多个部分合并为单个 Parquet 文件格式

问题描述 投票:0回答:0

数据从Apache Spark集群导出。 它包含目录的以下文件结构(=分区)

000002_0 (1GB)
000011_0
000014_0
000015_0
000021_0
000024_0
000027_0
000029_0
......

831542331_data.0.parq (20K)
716761184_data.0.parq
783715959_data.0.parq
953405899_data.0.parq
......

part-r-00000.snappy.parquet (2K)
part-r-00001.snappy.parquet
part-r-00002.snappy.parquet
part-r-00003.snappy.parquet
part-r-00004.snappy.parquet 
.......

我假设实际内容存储在大文件(1G)中,相应的元数据存储/映射在较小的文件中。

我想为整个分区生成一个 parquet 文件。有没有办法使用标准 CLI 工具或 PySpark 来做到这一点?

python apache-spark command-line-interface parquet
© www.soinside.com 2019 - 2024. All rights reserved.