问题:torch.distributed.barrier() 卡住了。怎么解决?

问题描述 投票:0回答:1

我正在尝试使用

DistributedDataParallel
并已为其编写代码。但是,我遇到了一个问题,当我在
torch.distributed.barrier()
之后使用
init_process_group()
时,进程会停止。

下面是有问题的代码片段:

dist.init_process_group(backend="nccl",
                        world_size=opts.world_size,
                        rank=opts.local_rank)

有趣的是,当我将后端从

"nccl"
更改为
"gloo"
时,代码可以无缝运行,但我更喜欢使用
"nccl"
模式。

以下是我正在使用的版本:

Python: 3.8.14
PyTorch: 2.2.0
CUDA: 12.1

我还检查了 NCCL 日志(使用导出

NCCL_DEBUG=INFO
),但无法发现任何问题..

python pytorch
1个回答
0
投票

我注册只是为了问你是否解决了它,因为我在相同的配置上遇到了同样的问题。

© www.soinside.com 2019 - 2024. All rights reserved.