我正在使用以下配置在AWS yarn集群上运行flink流作业
主节点-1,核心节点-1,任务节点-3
我启用了
jobmanager.execution.failover-strategy: region
由于我的一个任务节点发生故障并尝试在区域级别(在我的情况下,在任务节点级别)重新启动,因此我以5分钟的延迟5次尝试启用了fixedDelayrestart的重新启动策略,并且禁用了我的检查点。
如果看到该图像,它的重新启动比预期的要多。
任何人都可以帮助我了解为什么会这样吗?
文档中有关于“重新启动管道区域故障转移策略”
[1]的部分。最重要的是,如果您有一个流作业,且该作业的操作员对流进行了物理分区,例如keyBy
,则所有任务最终都将位于同一区域,因此所有任务将整体重新启动。对于批处理作业,需要将ExecutionMode
[2]配置为BATCH
或BATCH_FORCED
。