几个月后我再次在我的服务器节点上工作,现在 slurmd 守护进程不会在任何节点上启动。我的 slurmctld 工作正常。我在 slurm 目录中有 cgroup.conf 文件。这是配置文件:
#CgroupAutomount=yes
ConstrainCores=no
ConstrainRAMSpace=no
无论其 v2 还是只是自动挂载设置为 yes 并且插件被注释掉,我都会遇到相同的错误。
这是错误输出:
Couldn't find the specified plugin name for cgroup/v2 looking at all files
slurmd[587248]: slurmd: error: cannot find cgroup plugin for cgroup/v2
slurmd[587248]: slurmd: error: cannot create cgroup context for cgroup/v2
slurmd[587248]: slurmd: error: Unable to initialize cgroup plugin
slurmd[587248]: slurmd: error: slurmd initialization failed
我之前已将 cgroup 设置为 v1,但收到此错误:
slurmd[1535]: slurmd: CPU frequency setting not configured for this node
slurmd[1535]: slurmd: error: unable to open '/sys/fs/cgroup/freezer//tasks' for reading : No such file or directory
slurmd[1535]: slurmd: error: cgroup namespace 'freezer' not mounted. aborting
slurmd[1535]: slurmd: error: unable to create freezer cgroup namespace
slurmd: error: Couldn't load specified plugin name for proctrack/cgroup: Plugin init() callback failed
slurmd[1535]: slurmd: error: cannot create proctrack context for proctrack/cgroup
slurmd[1535]: slurmd: error: slurmd initialization failed
所以我切换到 v2,因此出现了当前的错误。如有任何建议或帮助,我们将不胜感激。
更新: 我将配置文件更改为
CgroupPlugin=cgroup/v1
CgroupAutomount=yes
ConstrainCores=no
ConstrainRAMSpace=no
CgroupMountpoint=/sys/fs/cgroup
现在守护进程可以运行/激活,但是,仍然存在一些与冷冻机相关的错误。
这是因为 cgroups_v2.so 插件不存在。签入 /usr/lib64/slurmd/cgroups*