slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

如何使用 SLURM 运行多个作业(每个 GPU 一个)?

如果之前有人问过/回答过这个问题,我深表歉意,但即使在阅读了我能找到的所有内容之后,我仍在努力让 SLURM 做我想做的事。 假设我有一台有 4 个 GPU 的机器。我想训练 4

回答 1 投票 0

使用 slurm 运行并行多处理 Python 脚本

我正在尝试使用 slurm 同时运行一个 python 脚本,该脚本使用多处理在内部并行化进程。 python 脚本的目标是求解随机微分方程

回答 1 投票 0

没有名为 certifi 的模块

在本地目录上执行python3(Python 3.6.8)脚本时,它运行良好,但是在slurm中运行sbatch作业时,抱怨certifi。 python3 -m pip 安装证书 默认为用户

回答 5 投票 0

在并行处理中更改$TMPDIR

我在高性能计算系统上运行批处理作业来对对齐的读取进行排序,并使用 GNU 并行来加速我的工作,但我的工作失败了,原因如下: 并行:错误:输出为

回答 3 投票 0

Slurm 批处理脚本保存到变量或追加

我希望能够将我的 slurm 批处理脚本附加到我的错误文件中。我使用 sbatch -J "my_run_name" runscript.slurm 在 HPC 上提交这些内容。 runscript.slurm 的内容总结...

回答 1 投票 0

确保始终有 N 个作业在使用 SLURM 的 M 批次中运行/分配

我需要使用SLURM进行集群计算,我希望达到以下结果:在包含M个任务的批处理文件中,任何时候只有N个任务正在执行/保留。 我有一个...

回答 1 投票 0

我可以创建一个反映数组任务ID的作业名称吗?

我在大学使用高性能研究云,它利用 Slurm 工作负载管理器(我对这种类型的计算非常不熟悉)。我已经想出足够的办法来获得一批......

回答 1 投票 0

查看用户请求的 slurm 作业优先级

我在 slurm 中提交了以下作业 testuser1@dev-0:~$ sbatch --priority=10 --cpus-per-task=10 --wrap="/bin/sleep 300" 提交的批处理作业 18 当我确实在上面的工作中展示工作时,我不...

回答 1 投票 0

Slurm:无效的工作凭证

我尝试搭建一个Slurm集群,由一个计算节点和一个控制节点组成。 目前,启动某些任务不起作用。即使队列不为空,节点有时也会关闭。斯伦

回答 1 投票 0

Snakemake 任务在 SLURM 上失败且没有错误 - 如何调试?

我尝试使用snakemake --slurm -j 200通过SLURM运行多个任务。一些SLURM作业失败,但我找不到任何错误消息。 Snakemake 打印以下内容: ... [2023 年 9 月 28 日星期四 10:25:04]...

回答 1 投票 0

如何在slurm中设置MASTER_PORT和MASTER_ADDR

在torch官方文档中谈到DDP时,说要设置如下: def 设置(等级,世界大小): os.environ['MASTER_ADDR'] = 'localhost' os.environ['MASTER_PORT'] = ...

回答 1 投票 0

Slurm 中的 GPU 分配:--gres 与 --gpus-per-task,以及 mpirun 与 srun

Slurm 中有两种分配 GPU 的方法:要么是通用的 --gres=gpu:N 参数,要么是特定的参数,如 --gpus-per-task=N。还有两种方法可以在批处理 SC 中启动 MPI 任务...

回答 2 投票 0

ArangoDB 在 slurm sbatch 提交后陷入沉默

我正在尝试在 Cray 超级计算机上以集群模式运行 ArangoDB。 它在登录节点上运行。 我按照以下说明进行操作: https://docs.arangodb.com/3.11/deploy/deployment/single-instance/ 为了使

回答 1 投票 0

使用 doParallel 在 Slurm 作业中从 R 启动多个系统调用

我正在使用一个 R 脚本,该脚本基本上将命令行命令粘贴在一起以通过 system2() 执行。这些命令运行一些 Java 应用程序。 现在,我想生成该 Java 的多个进程

回答 1 投票 0

SLURM:在同一组节点上运行两个具有不同设置的 MPI 作业

我有一个 slurm 批处理脚本,并且正在运行英特尔 MPI。 我想在具有不同进程放置配置的同一组节点上运行两个不同的 MPI 代码。 我正在运行两个 MPI 代码,...

回答 1 投票 0

我无法将变量从 Slurm 脚本传递到 Bash 脚本

不知何故,我无法将变量从 Slurm 作业脚本传递到 Bash。我以为它以前有效,但我找不到错误。 Slurm脚本运行如下: #!/bin/bash # #SBATCH -A 节点 ...

回答 1 投票 0

当 OMP_NUM_THREADS 大于 1 时,fortran 分段错误

所以我使用以下 runaout.sh 文件执行 a.out (编译的 Fortran 代码) #!/bin/bash #SBATCH --时间=00:15:00 #SBATCH --作业名称=mhsw9 #SBATCH --节点=1 #SBATCH --nodelist=komputasi09 我是谁

回答 1 投票 0

尝试在容器中运行 R 脚本

我正在尝试运行一个名为 LINDA 的具有奇点的工具。我正在努力了解如何在容器中运行 R 脚本。到目前为止,我正在使用 slurm 运行下面的命令,但它说...

回答 1 投票 0

为正在运行的 slurm 作业添加时间

我有一份运行由 slurm 管理的 Linux 机器的工作。 现在这项工作已经运行了几个小时,我意识到我低估了它完成所需的时间,从而低估了 --time 的价值

回答 3 投票 0

使用 slurm 通过 django 网页提交作业(到 postgre 数据库)

我正在寻求有关如何进行的建议,假设这可能是一个可行的行动方案。 我编写了一个基于 Web 的界面(Django)来访问存储在(外部)数据库上的一些数据。 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.