Bigquery 上 ETL 的最佳实践方法?

问题描述 投票:0回答:2

我想知道人们找到了哪些在 bigquery 上构建和管理 ETL 作业的最佳实践/工具。

目前我有很多 sql '模板'(通过 lob、日期等可怕地参数化,使用 sed 类型字符串替换到 tmp.sql 文件中,然后运行它),我使用命令行工具来运行它们的序列并发送输出到表。它工作得很好,但变得有点笨拙。我仍然不明白为什么我不能在 bigquery 上运行存储过程类型参数化脚本。或者甚至是某种用于构建和管理管道的 GUI。

我喜欢bigquery,但真的觉得我要么错过了一些非常明显的东西,要么是产品中真正的差距(例如,很确定 Apache Drill 在这方面有更多的构建)。

所以只是想知道是否有人可以分享您自己使用的任何最佳实践 etl 技巧或方法。

我也使用 xplenty 来完成一些工作,这很好,但它也有点混乱,因为我不能只在其中编写 sql,因此构建和调试复杂的管道可能会很痛苦。

也在考虑研究 Talend,但真正的参数化存储过程、宏和 SQL 才是我理想的需要。

抱歉,如果这更多的是讨论问题而不是具体代码。很高兴将其转移到 reddit 或其他更适合那里的地方。

google-bigquery etl
2个回答
1
投票

我认为 Google Cloud Dataflow 比 BigQuery 更能满足您的需求。我们将其用于具有自动缩放功能的实时流式 ETL。效果很好,但您需要编写 Java 代码。


0
投票

现在的 dbt 项目就是答案:

  • 以模块化和版本化的方式定义 SQL 转换(模型)
  • 使用 dbt Cloud
  • 安排他们的跑步
© www.soinside.com 2019 - 2024. All rights reserved.