slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

一个节点上运行多个单核

我有一个如下所示的 csh 脚本 foreach n(`seq 1 1000000`) ./myprog${n}.x 结尾 我想并行化它并在我的 slurm 集群上运行它,因为程序的每个实例都需要......

回答 1 投票 0

SLRUM:当节点位于 2 个分区时,如何限制一个分区中特定节点的 CPU 数量?

实际上,我发现了一个与我非常相似的问题。唯一的区别是我的小集群中节点的CPU数量不同。 (类似的问题在这里) 例如,点头...

回答 2 投票 0

程序在 SLURM 集群上学习时收到 TIME LIMIT 时保存模型权重

我使用用 pytorch_lightning (pytorch) 编写的深度学习模型,并在 slurm 集群上训练它们。我这样提交作业: sbatch --gpus=1 -t 100 python train.py 当请求的 GPU 时间结束时,...

回答 2 投票 0

奇点中的孤立环境?

我正在 HPC 集群上运行奇点。我想要一个隔离的环境,这样我就可以在不影响我的主目录的情况下进行开发。 1. 簇上的奇点 我尝试了最简单的事情...

回答 1 投票 0

Slurm 配置问题:运行进程会阻塞整个节点的核心而不是分配的核心

我在分布式计算环境中配置 Slurm 时遇到问题。当我启动一个只应使用 4 个核心的进程时,它最终会阻塞 n 上的所有 128 个可用核心...

回答 1 投票 0

Slurm GANG 安排不轮流工作?

我正在尝试在我的单节点服务器上使用 Slurm 设置 GANG 调度,以便实验室的人员可以在不互相阻塞的情况下运行实验(所以如果说有人必须运行一些需要......

回答 1 投票 0

使用 srun 或 salloc 启动交互式会话

我有相当多的LSF实践经验,这实际上干扰了我对SLURM的学习。 我对 srun 和 salloc 特别困惑,因为我无法将它们映射到任何一个......

回答 1 投票 0

登录Dask

我正在使用 SLURM 集群,并且希望能够在我的任务中添加自定义日志,这些日志在检查特定工作人员时应显示在仪表板上的日志中。 或者我会...

回答 1 投票 0

将 slurm 资源使用情况记录到文件中

有没有办法在作业完成时将资源使用情况(如 seff 显示)记录到文件中?我经常有一些工作已经完成,他们的资源信息已经从 SLURM 中循环出来,l...

回答 1 投票 0

是否可以通过 sbatch 将作业名称分配给 SLURM 数组中的单独工作人员?

默认情况下,将 SLURM 作业作为数组提交时,数组中的所有作业共享相同的作业名称。在文档中(此处:https://slurm.schedmd.com/job_array.html),它显示...

回答 1 投票 0

指定 Slurm 作业允许的节点列表

提交单节点作业时是否可以指定允许的节点列表? IE。该作业应限制为在列出的节点之一上运行(基本上是 --exclude 的补充)。 我...

回答 1 投票 0

提交一个调用 srun 的 python 脚本来 slurm

我想用slurm提交一个python脚本,通过bash“sbatch myscript.sh”。在我的 script.sh 中,python 被称为“python running.py” 反过来将使用“check_cal...

回答 1 投票 0

带有 SLURM 的 Conda 环境

我正在尝试在 SLURM 集群上的 conda 环境中执行 python 脚本。到目前为止,我在网上找到的任何建议都无法解决我的问题。我设置了 conda 环境并安装了所有必需的...

回答 1 投票 0

SLURM:Sinfo GresUsed

运行“sinfo ... --Format=GresUsed”等命令时如何解释 GresUsed 的输出格式 我的节点的输出看起来像这样: GPU:h100:0(IDX:不适用) 做什么...

回答 1 投票 0

展开列以查看 Slurm 中的完整作业名称

是否可以扩展SLURM中命令sacct的JobName列中使用的字符数? 例如,我目前有: JobID JobName 已用 NCPUS NTasks ...

回答 2 投票 0

在 slurm 中运行并行作业

我想知道是否可以询问有关并行运行 slurm 作业的问题。(请注意,我是 slurm 和 linux 的新手,两天前才开始使用它......) 根据...的说明

回答 2 投票 0

如果 slurm 脚本通过 Python 中的 os.system 提交,则显示“sh:记录器:找不到命令”

我正在将作业提交到使用 SLURM 管理的集群。我有一个 python 脚本,可以自动提交作业,因为我正在进行超参数调整。 在我的 python 脚本中,我运行 os.system('s...

回答 1 投票 0

这个任务适合rslurm吗?

我有几个实验,我想在每个节点上运行一个实验,每个实验都是具有多个核心的一系列执行。现在我的代码如下所示: 运行种子 <- c(1,2,3...

回答 1 投票 0

/opt/lmod/lmod/init/bash:第 178 行:`color-chrs.pl':不是有效的标识符

我正在尝试向计算节点提交 shell 脚本,但仅在提交作业时才不断遇到此错误。作业启动但返回错误“...不是有效的标识符”...

回答 1 投票 0

Slurm 错误“分配请求的核心/任务必须以季度增量”

嗨,我正在 PSC 中使用bridges2超级计算机来运行作业,当我尝试使用下面的脚本提交作业时,出现错误 sbatch:错误:分配请求的核心/任务...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.