使用稳定基线的模仿学习预训练模型3

Question

我一直在尝试找出一种使用 Stable-baselines3 预训练模型的方法。

在 Stable-baseline（在 Tensorflow 1.X 上运行的版本）的原始文档中，这似乎是一件容易的事：

    from stable_baselines import PPO2
    
    from stable_baselines.gail import ExpertDataset
    
    dataset = ExpertDataset(expert_path='expert_cartpole.npz', traj_limitation=1, batch_size=128)
    
    model = PPO2('MlpPolicy', 'CartPole-v1', verbose=1)
    
    \# Pretrain the PPO2 model
    
    model.pretrain(dataset, n_epochs=1000)

问题是，没有“from stable_baselines3.gail import ExpertDataset”

基本上我想做的是我想使用特定算法创建一个 .npz 文件来生成观察、奖励、动作，然后将其传递给 RL 代理。

我从这个文档中找到了原始代码：

https://readthedocs.org/projects/stable-baselines/downloads/pdf/master/

2023 年 3 月 4 日更新：我发现这个链接解释了这是如何在稳定基线上完成的： https://stable-baselines.readthedocs.io/en/master/guide/pretrain.html 我想在 SB3 上做同样的事情。

Answer 1

您可以使用

imitation

，它建立在SB3之上。

pip install imitation

然后你可以使用：

from imitation.algorithms.adversarial.gail import GAIL

这是他们的文档

使用稳定基线的模仿学习预训练模型3

问题描述投票：0回答：1

1个回答

最新问题

使用稳定基线的模仿学习预训练模型3

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1