我想完全理解min/med/max信息的含义。
例如:
scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)
是指所有核心的扫描时间最短为3.1秒,最长为15.1秒,累计时间长达34分钟吧?
然后对于
data size total (min, med, max)
8.2GB(41.5MB, 42.2MB, 43.6MB)
是指所有核心,最大使用量是43.6MB,最小使用量是41.5MB,对吧?
所以同样的逻辑,对于左边的排序步骤,每个核心使用了 80MB 的内存。
现在,执行器有4个核心和6G RAM,根据metrix,我认为已经预留了很多RAM,因为每个核心最多可以使用1G左右的RAM。所以我想尝试减少分区数量并强制每个执行器处理更多数据并减少shuffle大小,您认为理论上可能吗?
最小/中值/最大值对应于任务,而不是核心。 例如在
scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)
由于阶段中的所有任务都执行相同的计算,因此这些值可以帮助您捕获管道中的数据倾斜等问题。