我们有一种情况,我们有大量的Spring启动应用程序在容器中运行(在OpenShift上),访问集中式基础设施(在容器外部),如数据库,队列等。
如果一个中央基础设施停机,健康检查会返回“不健康”(理所当然)。问题是,生动性检查看到了这一点,并重新启动pod(准备检查然后看到它也下降,所以不会启动应用程序)。当只有少数可用时,这很好,但如果许多(可能是数百个)应用程序正在使用它,它会强制重新启动所有应用程序(崩溃循环)。
我知道中央基础设施瘫痪是一件坏事。它“应该”永远不会发生。但是......如果确实如此(墨菲定律),它会让容器陷入狂热之中。看起来我们要么做错了,要么我们应该重新配置一些东西。
几个问题:
希望这可以帮助。