气流操作员从外部Rest API提取数据

问题描述 投票:0回答:1

我正在尝试从外部API提取数据并将其转储到S3上。我正在考虑编写和Airflow Operator rest-to-s3.py,这将从外部Rest API中提取数据。

我的担心是:

  1. 这将是一个长期运行的任务,如何跟踪故障?
  2. 比写一个运算符有更好的选择吗?
  3. 是否建议执行可能会运行几个小时并等待的任务?

我对Airflow还是很陌生,所以会有所帮助。

python airflow airflow-scheduler airflow-operator apache-airflow-xcom
1个回答
0
投票
  1. 错误-使用气流工具之类的好处之一就是错误跟踪。任何失败的任务都需要重新运行(基于配置),它将在任务历史记录等中保持其状态。另外,您可以根据任务状态进行分支,以决定是否要报告错误,例如发送电子邮件
  2. 一个运算符听起来像一个有效的选项,另一个选项是内置的PythonOperator并编写一个python函数。
  3. 长时间运行的任务对于任何设计和工具都是有问题的。您最好将其分解为小任务(也许可以并行执行它们以减少运行时间?)API是否需要花费很长时间来响应?还是打很多电话?也许根据生成的s3文件进行拆分?即每个文件都是不同的DAG /分支?
© www.soinside.com 2019 - 2024. All rights reserved.