tf_agents 改变底层奖励函数

问题描述 投票:0回答:0

我正在尝试从

suite_gym()
修改 MountainCarContinuous-v0 环境,但它陷入了局部最小值,因为奖励函数会惩罚优选解决方案的大型动作。

在基地健身房,我可以使用包装纸如下:

import gymnasium as gym

env = gym.make("MountainCarContinuous-v0")
wrapped_env = gym.wrappers.TransformReward(env, lambda r: 0 if r <= 0 else 1)
state, reward, done = wrapped_env.reset()
# reward will now always be 0 or 1 depending on whether it reached the goal or not.

你怎么能在 tf_agents 中做同样的事情?

env = suite_gym.load("MountainCarContinuous-v0")
env = None  #  how do I modify the underlying environment?

我试过修改

env._env
,但是得到一个重置()得到了一个意外的关键字参数'seed'错误

获取底层 gym env 并修改它的正确方法是什么?

python reinforcement-learning openai-gym tensorflow-agents
© www.soinside.com 2019 - 2024. All rights reserved.