我遇到了向集群中运行 Rocky Linux 8.8 的节点提交 Slurm 作业的问题。该作业的状态为“R”,但它已经运行了一天多,没有产生任何输出或错误。
以前,此作业将在几分钟内完成,尝试取消正在运行的作业会导致其冻结在“CG”状态。
我尝试使用以下命令重新启动节点上的 Slurm 服务:
systemctl 重新启动 slurmd systemctl 重新启动 slurmd.service systemctl 重新启动 sshd
我还尝试重新启动节点。
但是问题依然存在,并且提交的不同作业都会出现该问题。
什么可能导致此问题以及如何解决?
谢谢
这往往是由于某些I/O操作被阻塞造成的;该作业无法写入文件系统,并且 Slurm 无法正确取消该作业,因为进程卡在 D 状态。从 Slurm 控制器视图中,作业保持在
CG
状态(“完成”)。
通常,失败的网络挂载(例如 NFS)是罪魁祸首,但如果节点重新启动后问题仍然存在,您可能应该查找出现故障的本地磁盘(本地暂存、操作系统磁盘等)