将 Spark 多个部分合并为单个 Parquet 文件格式

问题描述投票：0回答：0

数据从Apache Spark集群导出。它包含目录的以下文件结构（=分区）

000002_0 (1GB)
000011_0
000014_0
000015_0
000021_0
000024_0
000027_0
000029_0
......

831542331_data.0.parq (20K)
716761184_data.0.parq
783715959_data.0.parq
953405899_data.0.parq
......

part-r-00000.snappy.parquet (2K)
part-r-00001.snappy.parquet
part-r-00002.snappy.parquet
part-r-00003.snappy.parquet
part-r-00004.snappy.parquet 
.......

我假设实际内容存储在大文件（1G）中，相应的元数据存储/映射在较小的文件中。

我想为整个分区生成一个 parquet 文件。有没有办法使用标准 CLI 工具或 PySpark 来做到这一点？

python

apache-spark

command-line-interface

parquet

将 Spark 多个部分合并为单个 Parquet 文件格式

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0