Bigquery 上 ETL 的最佳实践方法？

Question

我想知道人们找到了哪些在 bigquery 上构建和管理 ETL 作业的最佳实践/工具。

目前我有很多 sql '模板'（通过 lob、日期等可怕地参数化，使用 sed 类型字符串替换到 tmp.sql 文件中，然后运行它），我使用命令行工具来运行它们的序列并发送输出到表。它工作得很好，但变得有点笨拙。我仍然不明白为什么我不能在 bigquery 上运行存储过程类型参数化脚本。或者甚至是某种用于构建和管理管道的 GUI。

我喜欢bigquery，但真的觉得我要么错过了一些非常明显的东西，要么是产品中真正的差距（例如，很确定 Apache Drill 在这方面有更多的构建）。

所以只是想知道是否有人可以分享您自己使用的任何最佳实践 etl 技巧或方法。

我也使用 xplenty 来完成一些工作，这很好，但它也有点混乱，因为我不能只在其中编写 sql，因此构建和调试复杂的管道可能会很痛苦。

也在考虑研究 Talend，但真正的参数化存储过程、宏和 SQL 才是我理想的需要。

抱歉，如果这更多的是讨论问题而不是具体代码。很高兴将其转移到 reddit 或其他更适合那里的地方。

Answer 1

我认为 Google Cloud Dataflow 比 BigQuery 更能满足您的需求。我们将其用于具有自动缩放功能的实时流式 ETL。效果很好，但您需要编写 Java 代码。

Answer 2

现在的 dbt 项目就是答案：

以模块化和版本化的方式定义 SQL 转换（模型）
使用 dbt Cloud

Bigquery 上 ETL 的最佳实践方法？

问题描述投票：0回答：2

2个回答

最新问题

Bigquery 上 ETL 的最佳实践方法？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2