在路径搜索问题中使用强化学习时如何设置奖励函数?

问题描述 投票:0回答:1

我创建了一个具有微小随机影响且没有任何障碍的环境,智能体可以四处移动以找到从起点到目的地的路径。首先我使用 ϵ -greedy Policies 加载 20000 种方式作为样本来训练神经网络,然后我希望我的神经网络能够从起点到目的地独立地创建方式。但不知怎的,它从来没有起作用,无论我尝试多少次,神经网络都无法到达目的地。

我认为这可能是奖励函数的问题,所以我使用了2种不同的奖励函数:

  1. r=-1(未到达)/r=100(到达)
  2. r=exp(-dis_now/dis_all) 但仍然不起作用,有人可以给我一些宝贵的建议吗? 我会同时阅读更多论文。 非常感谢!
python tensorflow pytorch neural-network reinforcement-learning
1个回答
0
投票

好吧,我找到了一个完美的奖励函数,它实际上解决了我的问题,它是: r = 1/dis_now 这是一个简单但有效的方法,因为它在接近目的地时提供强力奖励,并且当到达目的地设定的半径时,代理会停止并结束回合,所以我不需要担心奖励可能会消失太大了。

© www.soinside.com 2019 - 2024. All rights reserved.