将 Snakemake 与 Sun Grid Engine 阵列作业结合使用

Question

我想知道是否有人知道如何在 Sun Grid Engine 计算环境中正确使用 Snakemake - 我正在使用共享 HPC 集群并同时运行许多作业，但是将数千个几乎相同的作业排队对调度程序来说是一个很大的压力相互依赖的工作。

我过去曾使用数组作业来绕过这个瓶颈和服务器管理员的电子邮件，但还没有找到一个好的资源来学习如何使用 Snakemake 有效地安排数组作业。

过去有人这样做过吗？

当前开始使用命令：

snakemake --jobs 500 \
  --cluster "qsub -pe smp 12 -cwd -j y -o snake.log"

Answer 1

老问题，但答案可能会让其他人感兴趣：这正是工作分组的用途。您可以在单个作业中运行任意数量的规则执行，从而减少调度程序必须处理的作业总数。

例如：

snakemake --groups somerule=group0 --group-components group0=50

将在单个作业中运行某个规则的 50 个实例，因此您将调度程序上的作业数量除以 50。作业提交后，计算节点上将运行一个包含属于该组的所有规则的snakemake子工作流，因此50个执行将在那里并行运行。