宣布 Delta Lake 将在 2022 年 6 月开源所有功能。因此,从 Delta Lake 本身的功能角度来看,这应该是可行的。我在 Databricks 之外的生产中使用了 Delta Lake,效果很好,它是一个得到广泛支持的开源存储层。
我从您的需求列表中看到的问题是从多个 Spark 管道并发写入 S3。在 Databricks 中,有一个托管的 S3 提交服务可以在写入操作期间处理锁定表。这是必要的,因为 S3 不支持像某些其他云存储服务那样的“如果不存在则放置”功能。在 Databricks 之外,您必须使用 DynamoDB 设置自己的服务,如此处所述。