问题：torch.distributed.barrier() 卡住了。怎么解决？

Question

我正在尝试使用

DistributedDataParallel

并已为其编写代码。但是，我遇到了一个问题，当我在

torch.distributed.barrier()

之后使用

init_process_group()

时，进程会停止。

下面是有问题的代码片段：

dist.init_process_group(backend="nccl",
                        world_size=opts.world_size,
                        rank=opts.local_rank)

有趣的是，当我将后端从

"nccl"

更改为

"gloo"

时，代码可以无缝运行，但我更喜欢使用

"nccl"

模式。

以下是我正在使用的版本：

Python: 3.8.14
PyTorch: 2.2.0
CUDA: 12.1

我还检查了 NCCL 日志（使用导出

NCCL_DEBUG=INFO

），但无法发现任何问题..

Answer 1

我注册只是为了问你是否解决了它，因为我在相同的配置上遇到了同样的问题。