我创建了一个具有微小随机影响且没有任何障碍的环境,智能体可以四处移动以找到从起点到目的地的路径。首先我使用 ϵ -greedy Policies 加载 20000 种方式作为样本来训练神经网络,然后我希望我的神经网络能够从起点到目的地独立地创建方式。但不知怎的,它从来没有起作用,无论我尝试多少次,神经网络都无法到达目的地。
我认为这可能是奖励函数的问题,所以我使用了2种不同的奖励函数:
好吧,我找到了一个完美的奖励函数,它实际上解决了我的问题,它是: r = 1/dis_now 这是一个简单但有效的方法,因为它在接近目的地时提供强力奖励,并且当到达目的地设定的半径时,代理会停止并结束回合,所以我不需要担心奖励可能会消失太大了。