如何在dask调度程序中设置超时参数

问题描述 投票:0回答:1

我试图运行 dask-distributed 在 slurm 集群中分发一些大型计算。

我总是收到“TimeoutError:未找到有效的工作人员”消息(这来自分布式/scheduler.py 中的第 6130 行)

我不知道如何更改该超时参数。我在 cfg 文件中尝试过使用

  • jobqueue.slurm.connect-timeout
  • jobqueue.slurm.tcp-timeout
  • jobqueue.slurm.no-workers-timeout
  • jobqueue.slurm.死亡超时
  • jobqueue.slurm.timeout

但这些都不起作用。我最终不得不手动修改代码,使超时参数足够大,以使调度程序等待足够的时间来运行至少一项作业(整个作业在如此短的时间内引发异常这一事实对我来说听起来很疯狂,但是这是另一个问题)。

那么在 yaml 文件中正确设置此变量的配置参数是什么?我在文档中找不到此信息

python dask dask-distributed
1个回答
0
投票

如果您参考这一行,从分散函数内部,有几件事可以尝试:

  • 增加函数的超时时间,
  • 但我认为最好使用 client.wait_for_worker,在尝试分散之前至少获得一名工人。
© www.soinside.com 2019 - 2024. All rights reserved.