重要性抽样中概率为0

问题描述 投票:0回答:1

我对强化学习中使用重要性采样的方法有一个一般性问题。当任一策略的概率为 0 时会发生什么?

probability reinforcement-learning sampling
1个回答
0
投票

假设

  • b
    = 行为策略的概率
  • π
    = 目标政策的概率

那么,

  • 如果
    π
    为 0 并且
    b
    > 0,则比率
    π / b
    变为 0,这仅意味着该状态下的此操作所产生的奖励为零,同时更新 Q 表在此之前的状态。简而言之,这不是问题,蒙特卡罗算法应该收敛。
  • 另一方面,当我们选择与目标策略有“覆盖”的行为策略时,
    b
    为0且
    π
    > 0的情况一开始就不应该出现。如果我们选择的行为策略没有覆盖目标策略,那么我们根本无法准确地学习 Q 表中那些行为策略从未探索过且我们无法探索的
    state, action
    对的动作值估计期待收敛。

用 Barto 和 Sutton 在他们的《强化学习》书中的话来说,

In order to use episodes from b to estimate values for π, we require that 
every action taken under π is also taken, at least occasionally, under b. 
That is, we require that π(a|s) > 0 implies b(a|s) > 0. This is called the 
assumption of coverage.
© www.soinside.com 2019 - 2024. All rights reserved.