在 AWS EMR 的不同实例中的不同日期并行执行相同的 Spark 作业存在性能问题

问题描述 投票:0回答:1

运行 Spark 作业(仅一个实例)时,它会在 20-30 分钟内完成。但是,相同的代码在多个 emr 实例中并行执行会花费更多时间。例如:我有 3 个实例,每个实例都有 10 个作业。一个实例中的每个作业按顺序运行,但不同实例中的 3 个作业并行运行。

S3 写入是否需要时间或 Glue 元数据更新?

有关工作的一些细节

1.Process around 10 TB data in one instance.
2.Write in to same s3 bucket but different partitions.
3.It adds metadata into Glue.
4.There are intermediate bucketed tables.

enter image description here

amazon-web-services apache-spark amazon-emr
1个回答
0
投票

每个作业都将数据写入相同的 s3 文件夹但不同的分区。s3 写入存在硬限制。[每秒 3,500 个写入请求或 5,500 个读取请求]。这造成了性能问题。

© www.soinside.com 2019 - 2024. All rights reserved.