Flink Yarn在任务失败时无限重启

问题描述 投票:1回答:1

我正在使用以下配置在AWS yarn集群上运行flink流作业

[主节点-1,核心节点-1,任务节点-3

并且我启用了

jobmanager.execution.failover-strategy: region

由于我的一个任务节点发生故障并尝试在区域级别(在我的情况下,在任务节点级别)重新启动,并且我以5次薄荷糖延迟5次尝试的fixedDelayrestart启用了重新启动策略,并且禁用了我的检查点。

Reference Image

如果看到该图像,它的重新启动比预期的要多。

任何人都可以帮助我了解为什么会这样吗?

apache-flink flink-streaming
1个回答
0
投票

文档中有关于“重新启动管道区域故障转移策略”

[1]的部分。最重要的是,如果您有一个流作业,且该作业的操作员对流进行了物理分区,例如keyBy,则所有任务最终将位于同一区域,因此所有任务将整体重新启动。对于批处理作业,需要将ExecutionMode [2]配置为BATCHBATCH_FORCED
© www.soinside.com 2019 - 2024. All rights reserved.