我有一个 agent 在 Open AI Gym 的 Frozen Lake 模拟上接受过培训。根据 Frozen Lake 代码,我看到操作对应于以下数字:
LEFT = 0
DOWN = 1
RIGHT = 2
UP = 3
代理在 4 x 4 网格的状态 0(左上角)处初始化。
但是,当我指示代理向左移动(从技术上讲它不能),如下面的代码所示,值为 0 时,我认为代理应该保持在相同的位置。
action = 0 # Left
env.reset()
new_state, reward, done, info = env.step(action) # Take a step
但是,它向下移动到状态 4,如下图所示。
这是我的笔记本,以防你想运行它来帮助我调试问题。 冰冻的 Colab 湖