我们目前在kubernetes上以作业集群的形式运行flink,使用的是这个 helm模板。https:/github.comdocker-flinkexamplestreemasterhelmflink。 (添加了一些配置)。
如果我想关闭集群,重新部署一个新的映像(由于应用程序代码更新),然后重新启动,我将如何从保存点进行恢复?
jobmanager命令是严格设置在standone-job.sh命令上的,如果我在deployments k8s资源的参数中添加了一个保存点,那么如果flink重启(由于某些系统错误),它将总是从该保存点重启,这不是我们想要的。
有没有一种方法可以从最新的保存点恢复,如果该保存点不存在,就用kubernetes job cluster helm配置重新开始?
我不认为我理解你的完整设置,但我从你的问题中读到,你有你的Flink集群&作业恢复脚本在standalone-job.sh。
你可以定期创建保存点,并用最新的保存点id更新配置。
你的Flink恢复脚本不应该指向一个特定的保存点,而是指向配置值,该配置值将始终包含最新的保存点id。
根据你的Flink作业的变化,从保存点恢复并不总是可能的,所以你也需要考虑到这种情况。