我对强化学习中使用重要性采样的方法有一个一般性问题。当任一策略的概率为 0 时会发生什么?
假设
b
= 行为策略的概率π
= 目标政策的概率那么,
π
为 0 并且 b
> 0,则比率 π / b
变为 0,这仅意味着该状态下的此操作所产生的奖励为零,同时更新 Q 表在此之前的状态。简而言之,这不是问题,蒙特卡罗算法应该收敛。b
为0且π
> 0的情况一开始就不应该出现。如果我们选择的行为策略没有覆盖目标策略,那么我们根本无法准确地学习 Q 表中那些行为策略从未探索过且我们无法探索的 state, action
对的动作值估计期待收敛。用 Barto 和 Sutton 在他们的《强化学习》书中的话来说,
In order to use episodes from b to estimate values for π, we require that
every action taken under π is also taken, at least occasionally, under b.
That is, we require that π(a|s) > 0 implies b(a|s) > 0. This is called the
assumption of coverage.