我正在尝试从
suite_gym()
修改 MountainCarContinuous-v0 环境,但它陷入了局部最小值,因为奖励函数会惩罚优选解决方案的大型动作。
在基地健身房,我可以使用包装纸如下:
import gymnasium as gym
env = gym.make("MountainCarContinuous-v0")
wrapped_env = gym.wrappers.TransformReward(env, lambda r: 0 if r <= 0 else 1)
state, reward, done = wrapped_env.reset()
# reward will now always be 0 or 1 depending on whether it reached the goal or not.
你怎么能在 tf_agents 中做同样的事情?
env = suite_gym.load("MountainCarContinuous-v0")
env = None # how do I modify the underlying environment?
我试过修改
env._env
,但是得到一个重置()得到了一个意外的关键字参数'seed'错误
获取底层 gym env 并修改它的正确方法是什么?