slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

slurm - 动态分配

感谢您阅读这个问题 我有兴趣根据当前的使用情况实现 GPU 的动态和公平分配。例如,在具有 12 个 GPU 和 3 个用户的服务器中,我会

回答 1 投票 0

Slurm 作业正在运行,但没有输出或错误

我遇到了向集群中运行 Rocky Linux 8.8 的节点提交 Slurm 作业的问题。该作业的状态是“R”,但它已经运行了一天多,没有产生任何结果...

回答 1 投票 0

所有 slurm 作业都会默默失败,退出代码为 0:53

我的所有 slurm 作业在启动后两秒内都会失败,退出代码为 0:53。 当我使用 scontrol show jobid 查看工作详细信息时,它没有说任何可疑的内容。 当我看着 f...

回答 1 投票 0

所有 slurm 作业都会失败,退出代码为 0:53

我的所有 slurm 作业在启动后两秒内都会失败,退出代码为 0:53。 当我使用 scontrol show jobid 查看工作详细信息时,它没有说任何可疑的内容。 当我看着 f...

回答 1 投票 0

多行匹配:提取单独的行

我有类似的命令输出 变量=“”“ 名字= 键1=值1 键2=值2 键3=值3 键4=值4 名字= 键1=值1 key2=val2 key3=v...

回答 1 投票 0

使用srun:如何设置节点数和核心数

我刚开始使用 srun 等命令。 我想使用 1 个节点 1cpu 和 16 个核心启动并行作业,但我不知道在使用 srun 函数时应该指示什么。 (1个节点由2个CPU组成...

回答 1 投票 0

SLURM:在多个文件上运行相同的并行脚本

我想做的是在数千个输入 csv 文件上运行相同的 python 脚本。 python 脚本是一个单进程脚本,它将单个文件作为输入并创建一个输出文件...

回答 1 投票 0

在节点上为 GPU 作业预留一些 CPU

我正在使用 Slurm 设置 GPU 集群。这些节点具有可变数量的 CPU 核心 (8-32) 和可变数量的 GPU (1-4)。将要运行的 GPU 作业通常需要很少的 CPU

回答 1 投票 0

使用 slurm 时使用 > 重定向输出是否多余?

我正在用 slurm 运行我的程序。我希望所有输出(和所有错误)都转到 logfile.log。我的批处理脚本是 #!/bin/bash #SBATCH --output=logfile.log #SBATCH --error=logfile.log 运行程序 我

回答 1 投票 0

默认在 CPU 上运行作业,但在 Slurm 中可用时在 GPU 上运行作业

有没有办法用 sbatch 向 Slurm 提交作业,并在可用的情况下使用 GPU,但如果没有可用的 GPU,则在 cpu 上运行? 设置:#SBATCH --gres=gpu:1 仅在可用 GPU 的节点上运行...

回答 1 投票 0

SLURM/NFS 集群共享文件系统锁定了某些用户的权限

背景 我使用 slurm 设置了一个 3 节点集群,一个控制节点和 3 个计算节点(控制节点兼作计算节点)。所有节点都在 linux mint 上,并且它们都通过...

回答 1 投票 0

如何更改 SLURM 更新输出文件(stdout)的频率?

我正在使用 SLURM 在超级计算机上调度作业。我设置了 --output=log.out 选项,将作业的标准输出内容放入文件 (log.out) 中。我发现该文件已更新前夕...

回答 1 投票 0

使用slurm脚本运行其他snakemake slurm作业

我有一个功能性的snakemake配置文件,用于使用SLURM在HPC上运行作业。如果我在本地运行此脚本,作业将并行提交,并且一切都会按预期进行。 然而,这个管道...

回答 2 投票 0

Snakemake、slurm 和记忆

我很难理解snakemake如何向slurm提交作业。 当我有一个基本的 slurm sbatch 脚本时,我通常会添加一行,例如 #SBATCH --mem=5G 确定 slurm 可能使用 5 GB...

回答 1 投票 0

SLURM 数组在#SBATCH 选项中添加变量

我有一个 SLURM 阵列 #SBATCH --array=0-1000%10 我需要添加一个变量而不是“1000” 成为类似的东西 #! /bin/bash 数字=$1 #SBATCH --array=1-${num}%10 或者如果还有其他的...

回答 1 投票 0

如何将当前时间的目录作为SLURM日志路径的一部分

我有一个可以在Linux GPU集群中运行的.slurm文件。该文件是这样的: #!/bin/bash #SBATCH -o ./myrepo/output.log #SBATCH -J 作业名称 #SBATCH --gres=gpu:V100:1 #SBATCH -c 5 来源/home/LAB/

回答 2 投票 0

如何为用户保留作业,以便在 slurm 中不达到总 CPU 数量?

我正在提交一堆数组作业,4组5组,每组8个cpu,所以总共4x5x8=160个cpu。我想将运行量保持在 100>2x5x8+1x2x8 cpu 总数以下,因为我需要让 ot...

回答 1 投票 0

在 SLURM 上检查 R 中的可用内核

我运行了以下 SLURM RStudio 设置脚本(当前正在运行): #!/bin/bash #SBATCH --作业名称=节点 #SBATCH --output=a.log #SBATCH --ntasks=18 #SBATCH --每个任务的CPU数=8 #SBATCH --mem-per-cpu=7gb ...

回答 1 投票 0

SLURM 报告内存消耗

我试图了解一个简单的作业消耗多少内存(基于这个python脚本)。我在分配了不同数量的核心的单个工作线程上运行相同的脚本。 结果

回答 1 投票 0

'--dependendy=aftercorr:已提交'slurm 选项无法识别

我有一个可以在 slurm 中运行的脚本。该脚本与作业数组 aftercorr 一起使用,或者至少这是我想要它做的。基本上它运行第一个作业数组没有任何问题,但是,它没有

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.