我想知道我在 Azure 上创建的 HDInsight 集群是否完全可靠。例如,我不想在一段时间后看到一个节点被清除或删除,并且我丢失了数据。
我知道我们在 EMR 上会有两种类型的集群,例如瞬态集群和持久集群,但我仍然怀疑持久集群在某些时候可能会丢失节点数据。
Azure HDInsight 也会发生这种情况吗?想请教有这方面经验的朋友们的意见?
谢谢
Azure HDInsight 集群类似于 EMR 中的持久集群。
按需 HDInsight Hadoop 集群类似于 EMR 中的瞬态集群。
AWS 与 Azure 服务比较:
AWS 服务 | Azure 服务 | 描述 |
---|---|---|
电子病历 | Azure 数据资源管理器 | 完全托管、低延迟。分布式大数据分析平台,可跨 PB 数据运行复杂查询。 |
电子病历 | 数据块 | 基于 Apache Spark 的分析平台。 |
电子病历 | 高清洞察 | 托管 Hadoop 服务。在 Azure 中部署和管理 Hadoop 集群。 |
电子病历 | 数据湖存储 | 基于 Azure Blob 存储构建的大规模可扩展、安全的数据湖功能。 |
Azure HDInsight 遵循计算和存储的严格分离,因此建议将数据存储在 Azure 存储 blob 和 Azure Data Lake Store 中,或两者的组合中。两者都提供与 HDFS 兼容的文件系统,即使集群被删除也能保留数据。
这种方法的好处是:
有关更多详细信息,请参阅HDInsight 中的 Azure 存储概述和将 Azure 存储与 Azure HDInsight 群集结合使用