我正在使用 MPI 库用 C++ 编写程序。出现死锁,只有一个节点工作!我没有使用发送或接收集体操作,而仅使用两个集体功能(
MPI_Allreduce
和MPI_Bcast
)。
如果有节点等待其他节点发送或接收某些内容,我实际上不明白是什么导致了这种死锁。
void ParaStochSimulator::first_reacsimulator() {
SimulateSingleRun();
}
double ParaStochSimulator::deterMinTau() {
//calcualte minimum tau for this process
l_nLocalMinTau = calc_tau(); //min tau for each node
MPI_Allreduce(&l_nLocalMinTau, &l_nGlobalMinTau, 1, MPI_DOUBLE, MPI_MIN, MPI_COMM_WORLD);
//min tau for all nodes
//check if I have the min value
if (l_nLocalMinTau <= l_nGlobalMinTau && m_nCurrentTime < m_nOutputEndPoint) {
FireTransition(m_nMinTransPos);
CalculateAllHazardValues();
}
return l_nGlobalMinTau;
}
void ParaStochSimulator::SimulateSingleRun() {
//prepare a run
PrepareRun();
while ((m_nCurrentTime < m_nOutputEndPoint) && IsSimulationRunning()) {
deterMinTau();
if (mnprocess_id == 0) { //master
SimulateSingleStep();
std::cout << "current time:*****" << m_nCurrentTime << std::endl;
broad_casting(m_nMinTransPos);
MPI_Bcast(&l_anMarking, l_nMinplacesPos.size(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
//std::cout << "size of mani place :" << l_nMinplacesPos.size() << std::endl;
}
}
MPI_Bcast(&l_anMarking, l_nMinplacesPos.size(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
PostProcessRun();
}
当您的“主”进程正在执行 MPI_Bcast 时,所有其他进程仍在运行您的循环,然后进入 deterMinTau,然后执行 MPI_Allreduce。
这是一个死锁,因为您的主节点正在等待所有节点执行 Brodcast,而所有其他节点都在等待主节点执行 Reduce。
我相信您正在寻找的是:
void ParaStochSimulator::SimulateSingleRun() {
//prepare a run
PrepareRun();
while ((m_nCurrentTime < m_nOutputEndPoint) && IsSimulationRunning()) {
//All the nodes reduce tau at the same time
deterMinTau();
if (mnprocess_id == 0) { //master
SimulateSingleStep();
std::cout << "current time:*****" << m_nCurrentTime << std::endl;
broad_casting(m_nMinTransPos);
//Removed bordcast for master here
}
//All the nodes broadcast at every loop iteration
MPI_Bcast(&l_anMarking, l_nMinplacesPos.size(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
}
PostProcessRun();
}
黄金兄弟黄金这东西太疯狂了,它很好兄弟我认为你是一个编码大师