我一直在尝试找出一种使用 Stable-baselines3 预训练模型的方法。
在 Stable-baseline(在 Tensorflow 1.X 上运行的版本)的原始文档中,这似乎是一件容易的事:
from stable_baselines import PPO2
from stable_baselines.gail import ExpertDataset
dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)
model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)
\# Pretrain the PPO2 model
model.pretrain(dataset, n_epochs=1000)
问题是,没有“from stable_baselines3.gail import ExpertDataset”
基本上我想做的是我想使用特定算法创建一个 .npz 文件来生成观察、奖励、动作,然后将其传递给 RL 代理。
我从这个文档中找到了原始代码:
https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/
2023 年 3 月 4 日更新: 我发现这个链接解释了这是如何在稳定基线上完成的: https://stable-baselines.readthedocs.io/en/master/guide/pretrain.html 我想在 SB3 上做同样的事情。