我正在使用 Google Composer 来编排我的作业,并使用 BeamRunPythonPipelineOperator 创建一个 DAG,这将在 Google Dataflow 上创建一个作业。当我创建一个包含 2 个并行任务的 DAG 时,工作正常,但是当我并行放置 2 个以上任务时,DAG 会停留在运行状态,并且不会在 Dataflow 上创建任何作业。
我已经增加了调度程序和执行程序资源,但行为是相同的。我需要对 DAG 执行什么操作才能并行创建 2 个以上任务?
如果 Google Cloud Composer 中的有向无环图 (DAG) 在执行三个或更多任务时陷入运行状态,您可以尝试以下可能影响 DAG 状态的解决方法:
检查任务依赖性: 确保明确定义任务之间的依赖性。如果一项任务正在等待另一项永远不会完成的任务,则可能会导致 DAG 挂起。
资源限制:访问 Airflow UI 并查看每个任务实例的日志。查找任何可以解释挂起原因的错误消息或线索。
Airflow 配置:检查您的 Airflow 配置设置,尤其是有关并行性和并发性的设置。确保您的设置支持您打算运行的任务数量。
数据库连接:有时,数据库连接问题可能会导致任务挂起。检查连接池设置并验证数据库是否响应。
Cloud Composer 版本:确保您拥有更新版本的 Google Cloud Composer。有时旧版本中的错误可能会导致任务执行出现问题。