用于用户的ETL和查询的工作流系统

问题描述 投票:0回答:1

我正在寻找一种满足以下需求的工作流程系统:

  1. 处理具有各种API的复杂ETL管道(基于文件,REST,控制台,数据库等)
  2. 提供不同执行环境(AWS,Azure,本地群集,本地计算机,...)上的自动调度/编排
  3. 具有“反应性”工作流程的选项,即可以立即触发和执行的工作流程而不会造成不必要的延迟,并以最高优先级执行,并且同一工作流程可以同时启动多次]]
  4. 特别是第三个要求似乎很难找到。此要求的目的是,用户应该能够发送查询以激活(计算上不繁重的)工作流程并立即获取结果,而不是等待几秒钟甚至几分钟,并且多个用户可能希望使用同一工作流程同时。之所以如此重要,是因为ETL工作流程和用户(“反应性”)工作流程存在大量重叠,我确实打算重用这些工作流程的某些部分,而不是维护由不同工具执行的两组工作流程。

Apache Airflow似乎是需求1和需求2的自然选择。但是,它似乎不支持第三个需求,因为它在(较长)的固定时隙中开始执行,并且不允许同时执行多个实例。相同的DAG(工作流程)。

是否有支持所有这些要求的工具,或者我是否必须使用两种不同的工作流管理工具,或者甚至必须对用户工作流使用(Python)脚本?

我正在寻找一种满足以下需求的工作流系统:使用各种AP​​I(基于文件的,REST,控制台,数据库等)来处理复杂的ETL管道,从而提供自动化的...

workflow etl airflow
1个回答
0
投票
© www.soinside.com 2019 - 2024. All rights reserved.