Flink Yarn在任务失败时无限重启

Question

我正在使用以下配置在AWS yarn集群上运行flink流作业

主节点-1，核心节点-1，任务节点-3

我启用了

jobmanager.execution.failover-strategy: region

由于我的一个任务节点发生故障并尝试在区域级别（在我的情况下，在任务节点级别）重新启动，因此我以5分钟的延迟5次尝试启用了fixedDelayrestart的重新启动策略，并且禁用了我的检查点。

如果看到该图像，它的重新启动比预期的要多。

任何人都可以帮助我了解为什么会这样吗？

Answer 1

文档中有关于“重新启动管道区域故障转移策略”

[1]的部分。最重要的是，如果您有一个流作业，且该作业的操作员对流进行了物理分区，例如keyBy，则所有任务最终都将位于同一区域，因此所有任务将整体重新启动。对于批处理作业，需要将ExecutionMode [2]配置为BATCH或BATCH_FORCED。