运行 Spark 作业(仅一个实例)时,它会在 20-30 分钟内完成。但是,相同的代码在多个 emr 实例中并行执行会花费更多时间。例如:我有 3 个实例,每个实例都有 10 个作业。一个实例中的每个作业按顺序运行,但不同实例中的 3 个作业并行运行。
S3 写入是否需要时间或 Glue 元数据更新?
有关工作的一些细节
1.Process around 10 TB data in one instance.
2.Write in to same s3 bucket but different partitions.
3.It adds metadata into Glue.
4.There are intermediate bucketed tables.
每个作业都将数据写入相同的 s3 文件夹但不同的分区。s3 写入存在硬限制。[每秒 3,500 个写入请求或 5,500 个读取请求]。这造成了性能问题。