Spark UI:如何理解 DAG 中的最小值/中值/最大值

问题描述 投票:0回答:1

我想完全理解min/med/max信息的含义。

例如:

scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)

是指所有核心的扫描时间最短为3.1秒,最长为15.1秒,累计时间长达34分钟吧?

然后对于

data size total (min, med, max)
8.2GB(41.5MB, 42.2MB, 43.6MB)

是指所有核心,最大使用量是43.6MB,最小使用量是41.5MB,对吧?

所以同样的逻辑,对于左边的排序步骤,每个核心使用了 80MB 的内存。

现在,执行器有4个核心和6G RAM,根据metrix,我认为已经预留了很多RAM,因为每个核心最多可以使用1G左右的RAM。所以我想尝试减少分区数量并强制每个执行器处理更多数据并减少shuffle大小,您认为理论上可能吗?

enter image description here

performance apache-spark apache-spark-sql bigdata spark-ui
1个回答
0
投票

最小/中值/最大值对应于任务,而不是核心。 例如在

scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)
  • 单项任务最快完成时间为 3.1 秒,中位数为 10.8 秒,最长任务耗时 15.1 秒。

由于阶段中的所有任务都执行相同的计算,因此这些值可以帮助您捕获管道中的数据倾斜等问题。

  • 例如,如果最大值远高于中值和最小值,则您的数据可能未以最佳方式分布。
© www.soinside.com 2019 - 2024. All rights reserved.