Slurmd 守护进程启动错误:查看所有文件时找不到 cgroup/v2 的指定插件名称

问题描述 投票:0回答:1

几个月后我再次在我的服务器节点上工作,现在 slurmd 守护进程不会在任何节点上启动。我的 slurmctld 工作正常。我在 slurm 目录中有 cgroup.conf 文件。这是配置文件:

    #CgroupAutomount=yes
    ConstrainCores=no
    ConstrainRAMSpace=no

无论其 v2 还是只是自动挂载设置为 yes 并且插件被注释掉,我都会遇到相同的错误。

这是错误输出:

    Couldn't find the specified plugin name for cgroup/v2 looking at all files
    slurmd[587248]: slurmd: error: cannot find cgroup plugin for cgroup/v2
    slurmd[587248]: slurmd: error: cannot create cgroup context for cgroup/v2
    slurmd[587248]: slurmd: error: Unable to initialize cgroup plugin
    slurmd[587248]: slurmd: error: slurmd initialization failed 

我之前已将 cgroup 设置为 v1,但收到此错误:

slurmd[1535]: slurmd: CPU frequency setting not configured for this node
slurmd[1535]: slurmd: error: unable to open '/sys/fs/cgroup/freezer//tasks' for reading : No such file or directory
slurmd[1535]: slurmd: error: cgroup namespace 'freezer' not mounted. aborting
slurmd[1535]: slurmd: error: unable to create freezer cgroup namespace
slurmd: error: Couldn't load specified plugin name for proctrack/cgroup: Plugin init() callback failed
slurmd[1535]: slurmd: error: cannot create proctrack context for proctrack/cgroup
slurmd[1535]: slurmd: error: slurmd initialization failed 

所以我切换到 v2,因此出现了当前的错误。如有任何建议或帮助,我们将不胜感激。

更新: 我将配置文件更改为

CgroupPlugin=cgroup/v1
CgroupAutomount=yes
ConstrainCores=no
ConstrainRAMSpace=no
CgroupMountpoint=/sys/fs/cgroup

现在守护进程可以运行/激活,但是,仍然存在一些与冷冻机相关的错误。

slurm hpc cgroups
1个回答
0
投票

这是因为 cgroups_v2.so 插件不存在。签入 /usr/lib64/slurmd/cgroups*

© www.soinside.com 2019 - 2024. All rights reserved.