没有databricks使用deltalake可行吗?

问题描述 投票:0回答:1
  1. 我们在 AWS s3 中有我们的数据湖。
  2. hive 中的元数据,我们有一个小型运行集群。(我们还没有使用 Athena/Glue)。
  3. 我们在 Airflow 管道中使用 spark 和 presto。
  4. 处理后的数据被转储到雪花中。
  5. Detalake 有多种形式,但主要是镶木地板。

我们想试验 Databricks。我们的计划是

  1. 为整个 detalake 创建 Deltalake 表而不是蜂巢表。
  2. 使用Databricks对很大一部分数据进行处理和入库
  3. 我们不能用数据块代替雪花,至少目前是这样。
  4. 所以我们需要其他 spark 管道也使用 deltalake 表。

上面的最后一步,是否可能没有挑战或棘手?

snowflake-cloud-data-platform databricks delta-lake
1个回答
0
投票

宣布 Delta Lake 将在 2022 年 6 月开源所有功能。因此,从 Delta Lake 本身的功能角度来看,这应该是可行的。我在 Databricks 之外的生产中使用了 Delta Lake,效果很好,它是一个得到广泛支持的开源存储层。

我从您的需求列表中看到的问题是从多个 Spark 管道并发写入 S3。在 Databricks 中,有一个托管的 S3 提交服务可以在写入操作期间处理锁定表。这是必要的,因为 S3 不支持像某些其他云存储服务那样的“如果不存在则放置”功能。在 Databricks 之外,您必须使用 DynamoDB 设置自己的服务,如此处所述。

© www.soinside.com 2019 - 2024. All rights reserved.