DistributeDataParallel(DDP):在基于存储的屏障中等待为 rank 初始化进程组

问题描述 投票:0回答:0

DistributeDataParallel(DDP):在基于存储的屏障中等待为 rank 初始化进程组

今天第一次在两台服务器上使用DDP,一台是4个GPU,一台是2个GPU,WORD_SIZE=6,出现如下问题enter image description here

enter image description here

两台服务器好像不在一个组 一开始我猜是服务器之间无法访问导致的,但是我发现服务器通过ping可以正常通信,请问这是什么原因?

deep-learning distributed
© www.soinside.com 2019 - 2024. All rights reserved.