我试图运行 dask-distributed 在 slurm 集群中分发一些大型计算。
我总是收到“TimeoutError:未找到有效的工作人员”消息(这来自分布式/scheduler.py 中的第 6130 行)
我不知道如何更改该超时参数。我在 cfg 文件中尝试过使用
但这些都不起作用。我最终不得不手动修改代码,使超时参数足够大,以使调度程序等待足够的时间来运行至少一项作业(整个作业在如此短的时间内引发异常这一事实对我来说听起来很疯狂,但是这是另一个问题)。
那么在 yaml 文件中正确设置此变量的配置参数是什么?我在文档中找不到此信息
如果您参考这一行,从分散函数内部,有几件事可以尝试: