如何减少检测Kubernetes上的节点故障时间?

问题描述 投票:0回答:2

我有2个Slave和1个主节点kubernetes集群。当一个节点关闭它需要大约5分钟kubernetes看到失败。我正在使用动态配置卷,这次对我来说有点多。我怎么能减少检测失败时间?我发现了一篇关于它的帖子:https://fatalfailure.wordpress.com/2016/06/10/improving-kubernetes-reliability-quicker-detection-of-a-node-down/

它说,在帖子的底部,我们可以通过更改参数来缩短检测时间:

kubelet:node-status-update-frequency = 4s(从10s开始) controller-manager:node-monitor-period = 2s(从5s开始) controller-manager:node-monitor-grace-period = 16s(40s) controller-manager:pod-eviction-timeout = 30s(从5m开始)

我可以从kubelet更改node-status-update-frequency参数,但我没有cli上的任何控制器管理器程序或命令。如何更改参数?关于减少检测停机时间的任何其他建议将不胜感激。

kubernetes
2个回答
1
投票

..但是cli上没有任何控制器管理器程序或命令。如何更改参数?

您可以在controller-manger systemd单元文件中更改/添加该参数,然后重新启动守护程序。请查看controller-manager here的手册页。

如果将controller-manager部署为微服务(pod),请检查该pod的清单文件并更改容器的command部分的参数(例如this


0
投票

它实际上是kube-controller-manager。对于kube-controller-manager,您还可以将--attach-detach-reconcile-sync-period从1m减少到15或30秒。这将允许更快速的卷附加分离操作。如何更改这些参数取决于您设置群集的方式。

© www.soinside.com 2019 - 2024. All rights reserved.