我想知道人们找到了哪些在 bigquery 上构建和管理 ETL 作业的最佳实践/工具。
目前我有很多 sql '模板'(通过 lob、日期等可怕地参数化,使用 sed 类型字符串替换到 tmp.sql 文件中,然后运行它),我使用命令行工具来运行它们的序列并发送输出到表。它工作得很好,但变得有点笨拙。我仍然不明白为什么我不能在 bigquery 上运行存储过程类型参数化脚本。或者甚至是某种用于构建和管理管道的 GUI。
我喜欢bigquery,但真的觉得我要么错过了一些非常明显的东西,要么是产品中真正的差距(例如,很确定 Apache Drill 在这方面有更多的构建)。
所以只是想知道是否有人可以分享您自己使用的任何最佳实践 etl 技巧或方法。
我也使用 xplenty 来完成一些工作,这很好,但它也有点混乱,因为我不能只在其中编写 sql,因此构建和调试复杂的管道可能会很痛苦。
也在考虑研究 Talend,但真正的参数化存储过程、宏和 SQL 才是我理想的需要。
抱歉,如果这更多的是讨论问题而不是具体代码。很高兴将其转移到 reddit 或其他更适合那里的地方。