Lunar Lander-v2 中使用 RL 算法 PPO 的问题

问题描述投票：0回答：1

在算法PPO中，需要计算一个比率为

ratios = torch.exp(new_probs-old_probs)

，它是当前策略下的动作概率除以先前策略下的动作概率之间的比率。但在我的实践中，比率等于 1 并且它永远不会改变。与此同时，演员损失和评论家损失在减少，但平均剧集奖励在波动，没有上升趋势。这与比率等于 1 有关吗？

我不知道问题出在哪里。有没有人见过同样的问题？你能给我一些建议吗？非常感谢！

reinforcement-learning openai-gym actor-critics

1个回答

0
投票

您的政策网络将使用相同的数据更新多次，old_probs 将保留而 new_probs 会发生变化（每次更新），是的，完成收集新数据后第一次更新的比率为 1，但第一次更新后比率会发生变化，并且夹在 1-epsilon 和 1+epsilon

之间

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.