在算法PPO中,需要计算一个比率为
ratios = torch.exp(new_probs-old_probs)
,它是当前策略下的动作概率除以先前策略下的动作概率之间的比率。
但在我的实践中,比率等于 1 并且它永远不会改变。与此同时,演员损失和评论家损失在减少,但平均剧集奖励在波动,没有上升趋势。这与比率等于 1 有关吗?
我不知道问题出在哪里。有没有人见过同样的问题?你能给我一些建议吗?非常感谢!
您的政策网络将使用相同的数据更新多次,old_probs 将保留而 new_probs 会发生变化(每次更新),是的,完成收集新数据后第一次更新的比率为 1,但第一次更新后比率会发生变化,并且夹在 1-epsilon 和 1+epsilon
之间