DistributeDataParallel(DDP):在基于存储的屏障中等待为 rank 初始化进程组
今天第一次在两台服务器上使用DDP,一台是4个GPU,一台是2个GPU,WORD_SIZE=6,出现如下问题
两台服务器好像不在一个组 一开始我猜是服务器之间无法访问导致的,但是我发现服务器通过ping可以正常通信,请问这是什么原因?