如何减少检测Kubernetes上的节点故障时间？

Question

我有2个Slave和1个主节点kubernetes集群。当一个节点关闭它需要大约5分钟kubernetes看到失败。我正在使用动态配置卷，这次对我来说有点多。我怎么能减少检测失败时间？我发现了一篇关于它的帖子：https://fatalfailure.wordpress.com/2016/06/10/improving-kubernetes-reliability-quicker-detection-of-a-node-down/

它说，在帖子的底部，我们可以通过更改参数来缩短检测时间：

kubelet：node-status-update-frequency = 4s（从10s开始） controller-manager：node-monitor-period = 2s（从5s开始） controller-manager：node-monitor-grace-period = 16s（40s） controller-manager：pod-eviction-timeout = 30s（从5m开始）

我可以从kubelet更改node-status-update-frequency参数，但我没有cli上的任何控制器管理器程序或命令。如何更改参数？关于减少检测停机时间的任何其他建议将不胜感激。

Answer 1

..但是cli上没有任何控制器管理器程序或命令。如何更改参数？

您可以在controller-manger systemd单元文件中更改/添加该参数，然后重新启动守护程序。请查看controller-manager here的手册页。

如果将controller-manager部署为微服务（pod），请检查该pod的清单文件并更改容器的command部分的参数（例如this）

Answer 2

它实际上是kube-controller-manager。对于kube-controller-manager，您还可以将--attach-detach-reconcile-sync-period从1m减少到15或30秒。这将允许更快速的卷附加分离操作。如何更改这些参数取决于您设置群集的方式。

如何减少检测Kubernetes上的节点故障时间？

问题描述投票：0回答：2

2个回答

最新问题

如何减少检测Kubernetes上的节点故障时间？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2