我目前使用 Apache Airflow 来运行数据聚合和 ETL 工作流程。我的工作流程相当复杂,一个工作流程有 15-20 个任务并且有分支。我可以将它们组合起来,但这样做会否定我使用的重试、执行计时器等功能。气流工作良好,只是在处理如此多的任务时速度相当慢。任务之间需要花费大量时间。
有没有一种替代方案可以更快地执行任务,而任务之间没有间隙?如果可能的话,我还想尽量减少切换所需的工作量。
我会推荐时间工作流程。它具有对开发人员更友好的编程模型,并可扩展到更大的用例。它也已用于许多公司的多个延迟敏感应用程序。
免责声明:我是 Temporal 项目的技术负责人,也是关联公司的联合创始人/CTO。
我建议您尝试 Dataplane。它是用 Golang 编写的 Airflow 替代方案,可实现超快的性能,并且可以使用更少的资源进行扩展。它有一个内置的 Python 代码编辑器,带有拖放数据管道生成器。它还具有隔离的环境,因此您可以构建到实时或不同数据域的路由来构建数据网格。完全免费使用。
这是链接:https://github.com/dataplane-app/dataplane
免责声明:我是积极为 Dataplane 做出贡献的社区的一员。