我正在尝试使用
DistributedDataParallel
并已为其编写代码。但是,我遇到了一个问题,当我在 torch.distributed.barrier()
之后使用 init_process_group()
时,进程会停止。
下面是有问题的代码片段:
dist.init_process_group(backend="nccl",
world_size=opts.world_size,
rank=opts.local_rank)
有趣的是,当我将后端从
"nccl"
更改为"gloo"
时,代码可以无缝运行,但我更喜欢使用"nccl"
模式。
以下是我正在使用的版本:
Python: 3.8.14
PyTorch: 2.2.0
CUDA: 12.1
我还检查了 NCCL 日志(使用导出
NCCL_DEBUG=INFO
),但无法发现任何问题..
我注册只是为了问你是否解决了它,因为我在相同的配置上遇到了同样的问题。