我一直在阅读如何在SubProcVenv模块中使用向量化环境从here和here。
但是,我可以找到的所有示例都使用稳定的基线(openai的模型),而且我似乎找不到使用自定义模型进行操作的方法。
可以做到吗?以及如何?
可以按照Colab笔记本中的说明进行操作。我不确定您要面对什么问题。我为自定义环境实现的方式是:
# Instantiate the env
env = customEnv()
# Wrap it
env = DummyVecEnv([lambda: env])
EPISODES = 5000
# Instantiate and learn using stable-baselines
model = PPO2('MlpPolicy', env).learn(EPISODES)
我确定您也可以对SubProcVenv
执行相同的操作。如果要使用多重处理,请使用SubProcVenv
only。