我在 Google Cloud 上运行,想要以主动-故障转移方式设置两个集群。
我使用 Milvus CDC 来保持两个集群同步。
我的问题是如何知道活动集群何时变得不健康并且需要切换。
我只看到可用于节点的健康检查。
还检查系统故障转移、网络故障转移、服务器崩溃、磁盘空间不足、查询返回等情况
查看这些有关如何实施的文章
https://zilliz.com/learn/ensuring-high-availability-of-vector-databases
有关监控的更多详细信息,请参阅:
https://milvus.io/docs/monitor_overview.md
您可以通过Prometheus实时查看指标 https://milvus.io/docs/monitor.md
您可以使用警报来指示何时进行故障转移 https://milvus.io/docs/alert.md
此外,如果您在主集群中运行所有冗余功能,则只需要在多个节点发生灾难性故障时进行故障转移。 这将很容易检测完全离线的多个服务器