连续状态、离散动作的强化学习算法

Question

我正在尝试在具有连续状态（dim.= 20）和离散操作（3 个可能的操作）的环境中找到最优策略。并且有一个特定的时刻：对于最佳策略，应比其他两个更频繁地选择一个操作（称为“操作 0”）（频率约为 100 倍；这两个操作风险更大）。

我尝试过使用 NN 值函数逼近的 Q 学习。结果相当糟糕：神经网络学习总是选择“动作 0”。我认为策略梯度方法（在神经网络权重上）可能会有所帮助，但不明白如何在离散动作上使用它们。

你能给一些尝试什么的建议吗？（也许是算法，要阅读的论文）。当状态空间连续且动作空间离散时，最先进的 RL 算法是什么？

Answer 1

在连续（状态和/或动作）空间中应用 Q 学习并不是一项简单的任务。当尝试将 Q 学习与全局函数逼近器（例如 NN）结合起来时尤其如此（我理解您指的是常见的多层感知器和反向传播算法）。您可以在Rich Sutton 的页面中阅读更多内容。更好（或者至少更简单）的解决方案是使用局部逼近器，例如径向基函数网络（本文的第 4.1 节很好地解释了原因）。

另一方面，状态空间的维数可能太高而无法使用局部逼近器。因此，我的建议是使用其他算法而不是 Q-learning。对于连续状态和离散动作来说，一个非常有竞争力的算法是Fitted Q Iteration，它通常与树方法结合来逼近 Q 函数。

最后，当动作数量较少时（如您的情况），一种常见的做法是为每个动作使用独立的逼近器，即，而不是采用状态动作对作为输入并返回 Q 的唯一逼近器value，使用三个逼近器，每个动作一个，仅将状态作为输入。您可以在本书的示例 3.1 中找到这样的示例使用函数逼近器的强化学习和动态规划

连续状态、离散动作的强化学习算法

问题描述投票：0回答：1

1个回答

最新问题

连续状态、离散动作的强化学习算法

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1