我有一个程序在集群上因未知原因崩溃。我感觉这可能与特定节点的使用有关。是否有命令可以查看已完成的作业在集群的哪些节点上运行(我的意思是节点 ID)?我想检查一下该作业是否始终在同一节点上运行。
sacct
sacct --start=2024-10-01 --format jobid,state,nodelist
使用
--format
--start