Spark UI：如何理解 DAG 中的最小值/中值/最大值

Question

我想完全理解min/med/max信息的含义。

例如：

scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)

是指所有核心的扫描时间最短为3.1秒，最长为15.1秒，累计时间长达34分钟吧？

然后对于

data size total (min, med, max)
8.2GB(41.5MB, 42.2MB, 43.6MB)

是指所有核心，最大使用量是43.6MB，最小使用量是41.5MB，对吧？

所以同样的逻辑，对于左边的排序步骤，每个核心使用了 80MB 的内存。

现在，执行器有4个核心和6G RAM，根据metrix，我认为已经预留了很多RAM，因为每个核心最多可以使用1G左右的RAM。所以我想尝试减少分区数量并强制每个执行器处理更多数据并减少shuffle大小，您认为理论上可能吗？

Answer 1

最小/中值/最大值对应于任务，而不是核心。例如在

scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)

由于阶段中的所有任务都执行相同的计算，因此这些值可以帮助您捕获管道中的数据倾斜等问题。