在Openai体育馆中避免违法行为

问题描述 投票:0回答:1

我正在尝试为模拟问题提供一个体育馆环境。在我的体育馆环境中,我有一系列非法状态,我不希望我的经纪人进入这些状态。向我的环境添加这种逻辑的最简单方法是什么,我应该使用包装器类吗?我不太了解它们,我尝试通过从类继承一个类来扩展MultiDiscrete空间,并覆盖MulriDiscrete.sample函数以阻止环境进入非法状态,但是有没有更有效的方法它吗?

reinforcement-learning openai-gym
1个回答
0
投票

我有一个类似的问题,我需要在一个健身房环境中创建一个在网格世界的中心有一个游泳池的环境,我不希望代理人去。

因此,我将网格世界表示为矩阵,并且池具有不同的深度,代理可以落入该深度,因此这些位置的值具有与水坑深度成比例的负值。

[培训特工时,这种负面奖励阻止特工跌入水坑。

上述环境的代码为here,其用法为here

希望这会有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.