根据google文档,基于HDFS和YARN可用性而不是基于区域/区域来衡量Dataproc的高可用性。是否可以将一个主机保留在一个区域中,将另一个主机保留在不同的区域中,以便将HA关联到Location?还请详细说明一下,在全局端点中配置Dataproc集群是否在上下文中实现了HA定位?
我已经阅读过Google文档,但这并不能消除所有疑问。
否,Dataproc HA不保证区域可用性,因为所有Dataproc群集节点应位于同一GCP区域中。
为了获得区域可用性,您需要在多个区域中创建Dataproc集群,并使用Dataproc Workflow Templates和基于标签的cluster selectors在整个区域集群中分配作业提交。