小行星游戏中使用神经网络的 ML RL

问题描述 投票:0回答:1

我建立了一个 DQ 网络,它分析小行星的状态,火箭给出了可能执行的最佳动作(左、右、射击、闲置)。但是代理不断发送垃圾子弹? 谁能帮我解决这个问题?

我以为代理会探索所有 4 个动作,但它不断地发送垃圾邮件,哈迪向左或向右移动,几乎停留在中心并不断发送垃圾邮件。

machine-learning deep-learning reinforcement-learning
1个回答
0
投票

有两点你应该考虑。

  1. 安排奖励和惩罚。当您制定政策时,不要只奖励射击小行星,还要尝试不同的状态。当同一 x 轴上没有小行星时,对射击给予高额惩罚;当该轴上有小行星时,对射击给予高额奖励。对当前小行星给予惩罚,当你靠近 x 轴上的小行星时给予奖励,等等。当然,这些都是例子,你需要试验并思考你的问题,以提出明智的奖励/惩罚。
  2. 探索与利用当前状态下获得最大奖励的行动从长远来看可能不是最好的行动。您需要试验您的 epsilon 值,以将模型推向探索。
© www.soinside.com 2019 - 2024. All rights reserved.