slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

如何使用SLURMRunner(作业队列)设置Dask仪表板地址并通过SSH端口转发访问它?

我正在尝试使用 dask-jobqueue 中的 SLURMRunner 在远程集群上运行 Dask Scheduler 和 Workers。我想将 Dask 仪表板绑定到 0.0.0.0(因此可以通过端口转发访问)和...

回答 1 投票 0

长时间运行的 slurm 作业启动单独的 slurm 作业

我有一个长时间运行的程序(程序A),它定期写入文件。 我有一个单独的程序(程序 B),每当该文件更新时我都需要运行它。 是否可以创建诽谤...

回答 1 投票 0

单节点服务器上的 Slurm 控制器和计算节点连接问题

我在单节点服务器系统上安装了SLURM。我可以成功安装 SLURM 并在服务器上运行控制器和计算节点守护程序。然而,sinfo 最终得到以下结果

回答 1 投票 0

在多个文件上运行 SLURM 的最简单方法

我有一个 Python 脚本,可以逐个处理大约 10,000 个 FITS 文件。对于每个文件,脚本都会在与输入文件相同的目录中生成输出,并创建单个 CSV 文件...

回答 1 投票 0

SLURM:分配节点时要求 tmpfs 的最小大小

我使用的是 SLURM 集群,没有任何 root 权限。 我想分配一个节点,但需要大量 tmpfs 对大文件执行快速计算。 我查了一下,目标n...

回答 1 投票 0

Slurm 和 Munge“凭据无效”

我是第一次安装 slurm。 我已经安装了 19.05.1-2 tarball 并使用配置器创建了一个非常简单的两节点集群。 控制节点是sdc,计算节点(运行slurm...

回答 3 投票 0

具有相关作业的 Slurm 作业数组

我有一组已成功提交的依赖 Slurm 作业。作业设置为: 乙 \ / c | d | e 我需要提交这组作业 1000 次,每次都进行参数化

回答 2 投票 0

从不同文件作为单个批处理作业提交太多命令

我想使用 bash 在 HPC 上运行批处理作业。要执行的命令保存到文本文件中。以前,我使用以下命令将文本文件的每一行作为批处理作业单独运行。 ...

回答 1 投票 0

是否会将 miniconda 移动到另一个正在运行 slurm 作业的目录?

我正在服务器集群上工作,我的主目录开始超过 25GB 的大小限制。是否可以将 miniconda 和 .conda 目录移动到集群的 /scratch 部分,其中...

回答 1 投票 0

在数据中心节点找不到GPU设备

我刚开始寻找多节点数据中心的方法。下面的事情正在发生在我身上。 首先,我使用此答案中的程序来检查 CUDA 设备。我构建了它(我遇到了一些问题...

回答 1 投票 0

如何通过 for 循环在配对文件上使用 SLURM_ARRAY_TASK_ID?

我有一个包含 180 个文件的文件夹,这些文件的名称中配对为 *R1.fastq.gz 和 *R2.fastq.gz。所以它可能是“abc_R1.fastq.gz”和“abc_R2.fastq.gz”作为一对,并且有......

回答 1 投票 0

通过多个并行步骤提交作业

我正在尝试设置多个步骤的作业,本质上是每次在单个核心上运行同一程序的许多独立副本。我决定使用这种方法而不是作业数组,因为......

回答 1 投票 0

如何通过 for 循环在配对文件上使用 SLURM_TASK_ID?

我有一个包含 180 个文件的文件夹,这些文件的名称中配对为 *R1.fastq.gz 和 *R2.fastq.gz。所以它可能是“abc_R1.fastq.gz”和“abc_R2.fastq.gz”作为一对,并且有......

回答 0 投票 0

slurmd 错误:端口已在使用中,导致从站无法与主站 slurmctld 通信

我正在尝试设置一个由 3 个节点组成的 Slurm(版本 22.05.8)集群,这些节点具有以下主机名和本地 IP 地址: 服务器1 - 10.36.17.152 服务器2 - 10.36.17.166 服务器3 - 10.36.17.132 我有

回答 1 投票 0

Slurm:使用多个节点的核心进行 Python 并行化

这个问题与这个问题有些相似, Slurm:使用多个节点的核心进行 R 并行化 但这是针对Python的。 我有一个可以在 PC 上使用多个内核的 python 程序,它确实...

回答 1 投票 0

Slurm --cpus-per-task 命令

大家好,我实际上使用的是一个名为 RepeatMasker 的软件,在这个管道中我可以使用命令 -pa 通过 slurm 运行并行作业 这是关于此命令的文档: 重复掩码-h -pa(拉尔...

回答 1 投票 0

如何在 Slurm 集群上的多个节点上运行 MPI Python 脚本?错误:警告:无法在 2 个节点上运行 1 个进程,将 nnodes 设置为 1

我正在 Slurm 集群上运行一个脚本,该脚本可以从并行处理中受益,因此我正在尝试实现 MPI。但是,它似乎不允许我在多个节点上运行进程。我不...

回答 1 投票 0

Slurm 命令查看节点 ID

我有一个程序在集群上因未知原因崩溃。我感觉这可能与特定节点的使用有关。有没有命令可以查看哪个...

回答 1 投票 0

提交限制高于 MaxArraySize 的 slurm 阵列作业?

我需要提交一个 slurm 数组,该数组将运行相同的脚本 18000 次(对于独立基因),并且我想以一种不会给我的大学集群造成问题的方式来执行此操作。 目前,

回答 2 投票 0

启动一个可更改节点数量的 SBATCH 脚本

我需要测试分布式算法的可扩展性,当在我选择的集群上运行测试时,我希望在单个脚本中动态设置节点数量。 我想要什么...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.