如何形式化强化学习评估指标?

问题描述 投票:0回答:1

早上好。

我正在 TensorBoard 中分析强化学习结果。 下面这两个指标用下面的公式表达是否合适?

  • 累积奖励:平均累积剧集奖励为:

    \frac{1}{N} \sum_{i=1}^{N} \sum_{t=0}^{T_i} r_{i, t}
    (N:剧集总数,T_i:第 i 集长度,R_{i,t}:第 i 集时间步 t 收到的奖励)

  • 价值损失:价值函数更新的平均损失为

    \frac{1}{N} \sum_{i=1}^{N} (V(s_i) - R_i)^2
    。 (N:训练样本总数,V(s_i):状态s_i的预测值,R_i:状态s_i实际观察到的累积奖励)

谢谢你。

metrics reinforcement-learning tensorboard equation ml-agent
1个回答
0
投票
  1. 您的第一个指标绝对有效,事实上,它经常在一定数量的训练集(一个纪元)之后用于在线强化学习,并且该指标是根据该纪元期间发生的所有事件计算的。它通常跨时期可视化,以了解整体学习曲线和样本效率。

  2. 第二个指标似乎有问题。如果索引

    i
    表示情节的索引,则
    V(s_i)
    是定义不明确的,因为状态的索引应该是情节内的步骤,而不是情节本身。假设您的意思是
    \frac{1}{N} \sum_{i=1}^{N} \sum_{t=0}^{T_i}  (V(s_t) - G_t)^2
    (请注意,在这种情况下,
    V(s_t)
    是状态
    s_t
    预测的价值函数,而
    G_t
    是时间 t 时的实际 折扣 回报(因为这就是
    V(s_t)
    )应该近似)),这个指标通常称为值误差,您可以使用它来了解您的值函数近似器有多好。

© www.soinside.com 2019 - 2024. All rights reserved.