这是我第一次安装
slurm
而不是使用它,还有两点我还不清楚:
在尝试了很多方法之后,我得到了slurm
(一个控制器和一个计算节点)最终按照本tutorial(slurm部分)中的说明工作。
第一个问题是计算节点只在本地保存输出。切换用户会出现此问题,因为计算节点会尝试仅在本地查找
—-output
中给出的目录。
第二个问题,如果我要让新用户使用集群,是否应该将他加入slurm组?
我想知道通常是怎么做的?是否仅通过提供共享金额才有效?我是否需要包含 NFS 部分(在提到的教程中)才能使其正常工作?我假设因为
munge
和无密码 ssh 连接,预计工作目录将是输出目录,除非另有设置..对吗??
如果这是一个明显的问题,我深表歉意,希望您能澄清我在这里遗漏的内容。
—-output
只会写入提到的路径或 PWD。您需要在该场景中使用 NFS(这是理想的方式)。每个用户在 NFS 中都有自己的目录。来自 slurm 文档 输出文件将在作业分配的第一个节点上生成。除了批处理脚本本身,Slurm 不会移动用户文件
是的,您需要使用
sacctmgr
添加新用户。比如像这样:
sacctmgr 创建用户名=USERNAME 账号=GROUP
如果你需要使用多个计算节点,你肯定需要一个 NFS 挂载。