我有2个Slave和1个主节点kubernetes集群。当一个节点关闭它需要大约5分钟kubernetes看到失败。我正在使用动态配置卷,这次对我来说有点多。我怎么能减少检测失败时间?我发现了一篇关于它的帖子:https://fatalfailure.wordpress.com/2016/06/10/improving-kubernetes-reliability-quicker-detection-of-a-node-down/
它说,在帖子的底部,我们可以通过更改参数来缩短检测时间:
kubelet:node-status-update-frequency = 4s(从10s开始) controller-manager:node-monitor-period = 2s(从5s开始) controller-manager:node-monitor-grace-period = 16s(40s) controller-manager:pod-eviction-timeout = 30s(从5m开始)
我可以从kubelet更改node-status-update-frequency参数,但我没有cli上的任何控制器管理器程序或命令。如何更改参数?关于减少检测停机时间的任何其他建议将不胜感激。
它实际上是kube-controller-manager。对于kube-controller-manager,您还可以将--attach-detach-reconcile-sync-period从1m减少到15或30秒。这将允许更快速的卷附加分离操作。如何更改这些参数取决于您设置群集的方式。