使用 AWS Glue 数据目录在 EMR 上运行 DBT Spark

问题描述 投票:0回答:1

我有一个带有 AWS EMR 的经典基础设施,其中 Spark 作业写入位于 S3 中的 hive 表,其中 hive 元存储设置为 AWS Glue DataCatalog。

现在我正在探索 Lakehouse 格式,例如 Delta Lake,在能够在 EMR 上使用它之后,我想测试安装 dbt 以使用我的测试 Delta 表运行一些转换。配置 dbt-spark 项目时,它只有 thrift 选项,没有提及粘合数据目录。

有人尝试过使用类似的东西吗?

apache-spark aws-glue amazon-emr dbt delta-lake
1个回答
0
投票

我还没有找到专门将 EMR 集群与 DBT 结合使用的方法,但是可以将 Glue 和 Glue 数据目录与 AWS 的 dbt-glue 适配器结合使用来实现您想要的效果。这是一篇描述设置的 AWS 博客文章 https://aws.amazon.com/blogs/big-data/build-and-manage-your-modern-data-stack-using-dbt-and-aws-glue -through-dbt-glue-the-new-trusted-dbt-adapter/

© www.soinside.com 2019 - 2024. All rights reserved.