早上好。
我正在 TensorBoard 中分析强化学习结果。 下面这两个指标用下面的公式表达是否合适?
累积奖励:平均累积剧集奖励为:
\frac{1}{N} \sum_{i=1}^{N} \sum_{t=0}^{T_i} r_{i, t}
(N:剧集总数,T_i:第 i 集长度,R_{i,t}:第 i 集时间步 t 收到的奖励)
价值损失:价值函数更新的平均损失为
\frac{1}{N} \sum_{i=1}^{N} (V(s_i) - R_i)^2
。 (N:训练样本总数,V(s_i):状态s_i的预测值,R_i:状态s_i实际观察到的累积奖励)
谢谢你。
您的第一个指标绝对有效,事实上,它经常在一定数量的训练集(一个纪元)之后用于在线强化学习,并且该指标是根据该纪元期间发生的所有事件计算的。它通常跨时期可视化,以了解整体学习曲线和样本效率。
第二个指标似乎有问题。如果索引
i
表示情节的索引,则 V(s_i)
是定义不明确的,因为状态的索引应该是情节内的步骤,而不是情节本身。假设您的意思是 \frac{1}{N} \sum_{i=1}^{N} \sum_{t=0}^{T_i} (V(s_t) - G_t)^2
(请注意,在这种情况下,V(s_t)
是状态 s_t
预测的价值函数,而 G_t
是时间 t 时的实际 折扣 回报(因为这就是 V(s_t)
)应该近似)),这个指标通常称为值误差,您可以使用它来了解您的值函数近似器有多好。