slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

使用 sendmail 作为 MailProg 进行 Slurm。电子邮件发送时主题为空

我使用的是rhel 9。 我将 slurm 配置为在 MailProg 中使用 sendmail。电子邮件已发送,但主题字段始终为空。 我认为这与权限(配置?)问题有关...

回答 1 投票 0

调度:如何从现有的slurm云节点中删除而不将它们标记为关闭?

当前行为 当 slurm 启动新实例时,该实例将在 sinfo 中列为云节点。有时我们不想等到 slurm 终止实例(在 SuspendTime 之后)...

回答 1 投票 0

使用 Slurm 和 Singularity 执行的 R 代码中存在语法错误

这可能是一个非常愚蠢的问题,但我找不到解决方案。我尝试使用 SLURM 中的 srun,它在奇点容器中运行一个简单的 R 脚本,如下所示: root_dir=$HOME/Migralion_alt/ img=...

回答 1 投票 0


Slurm 未正确设置 --ntasks

我在 SLURM 作业脚本中设置了 --ntasks=8、--cpus-per-task=4,但是 $SLURM_NTASKS 不存在,并且 $SLURM_TASKS_PER_NODE 设置为 1,这是意外的。下面是我的 test.sh 脚本(分区信息是

回答 1 投票 0

如何使用SLURMRunner(作业队列)设置Dask仪表板地址并通过SSH端口转发访问它?

我正在尝试使用 dask-jobqueue 中的 SLURMRunner 在远程集群上运行 Dask Scheduler 和 Workers。我想将 Dask 仪表板绑定到 0.0.0.0(因此可以通过端口转发访问)和...

回答 1 投票 0

长时间运行的 slurm 作业启动单独的 slurm 作业

我有一个长时间运行的程序(程序A),它定期写入文件。 我有一个单独的程序(程序 B),每当该文件更新时我都需要运行它。 是否可以创建诽谤...

回答 1 投票 0

单节点服务器上的 Slurm 控制器和计算节点连接问题

我在单节点服务器系统上安装了SLURM。我可以成功安装 SLURM 并在服务器上运行控制器和计算节点守护程序。然而,sinfo 最终得到以下结果

回答 1 投票 0

在多个文件上运行 SLURM 的最简单方法

我有一个 Python 脚本,可以逐个处理大约 10,000 个 FITS 文件。对于每个文件,脚本都会在与输入文件相同的目录中生成输出,并创建单个 CSV 文件...

回答 1 投票 0

SLURM:分配节点时要求 tmpfs 的最小大小

我使用的是 SLURM 集群,没有任何 root 权限。 我想分配一个节点,但需要大量 tmpfs 对大文件执行快速计算。 我查了一下,目标n...

回答 1 投票 0

Slurm 和 Munge“凭据无效”

我是第一次安装 slurm。 我已经安装了 19.05.1-2 tarball 并使用配置器创建了一个非常简单的两节点集群。 控制节点是sdc,计算节点(运行slurm...

回答 3 投票 0

具有相关作业的 Slurm 作业数组

我有一组已成功提交的依赖 Slurm 作业。作业设置为: 乙 \ / c | d | e 我需要提交这组作业 1000 次,每次都进行参数化

回答 2 投票 0

从不同文件作为单个批处理作业提交太多命令

我想使用 bash 在 HPC 上运行批处理作业。要执行的命令保存到文本文件中。以前,我使用以下命令将文本文件的每一行作为批处理作业单独运行。 ...

回答 1 投票 0

是否会将 miniconda 移动到另一个正在运行 slurm 作业的目录?

我正在服务器集群上工作,我的主目录开始超过 25GB 的大小限制。是否可以将 miniconda 和 .conda 目录移动到集群的 /scratch 部分,其中...

回答 1 投票 0

在数据中心节点找不到GPU设备

我刚开始寻找多节点数据中心的方法。下面的事情正在发生在我身上。 首先,我使用此答案中的程序来检查 CUDA 设备。我构建了它(我遇到了一些问题...

回答 1 投票 0

如何通过 for 循环在配对文件上使用 SLURM_ARRAY_TASK_ID?

我有一个包含 180 个文件的文件夹,这些文件的名称中配对为 *R1.fastq.gz 和 *R2.fastq.gz。所以它可能是“abc_R1.fastq.gz”和“abc_R2.fastq.gz”作为一对,并且有......

回答 1 投票 0

通过多个并行步骤提交作业

我正在尝试设置多个步骤的作业,本质上是每次在单个核心上运行同一程序的许多独立副本。我决定使用这种方法而不是作业数组,因为......

回答 1 投票 0

如何通过 for 循环在配对文件上使用 SLURM_TASK_ID?

我有一个包含 180 个文件的文件夹,这些文件的名称中配对为 *R1.fastq.gz 和 *R2.fastq.gz。所以它可能是“abc_R1.fastq.gz”和“abc_R2.fastq.gz”作为一对,并且有......

回答 0 投票 0

slurmd 错误:端口已在使用中,导致从站无法与主站 slurmctld 通信

我正在尝试设置一个由 3 个节点组成的 Slurm(版本 22.05.8)集群,这些节点具有以下主机名和本地 IP 地址: 服务器1 - 10.36.17.152 服务器2 - 10.36.17.166 服务器3 - 10.36.17.132 我有

回答 1 投票 0

Slurm:使用多个节点的核心进行 Python 并行化

这个问题与这个问题有些相似, Slurm:使用多个节点的核心进行 R 并行化 但这是针对Python的。 我有一个可以在 PC 上使用多个内核的 python 程序,它确实...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.