为什么用非线性函数逼近器随机化增强学习模型的样本以减少方差?

问题描述 投票:0回答:1

我已经阅读了DQN论文。

[阅读DQN论文时,我发现使用非线性函数逼近器随机选择和学习样本可以减少RL的差异。

如果是这样,当输入数据高度相关时,为什么使用非线性函数近似器学习RL会发散?

deep-learning reinforcement-learning nonlinear-functions dqn
1个回答
0
投票

我相信An Analysis Of Temporal-Difference Learning with Function Approximation的第X节(从第687页开始)为您的问题提供了答案。总之,存在非线性函数,其平均预测误差在应用TD(0)Bellman算子后实际上会增加。因此,该政策最终将有所分歧。对于深度神经网络,通常是这种情况,因为它们本质上是非线性的,并且从优化的角度来看往往表现不佳。

或者,对独立且均匀分布的iid)数据进行训练,可以计算出梯度的无偏估计,这对于一阶优化算法(如随机梯度下降(SGD))收敛到损失函数的局部最小值。这就是为什么DQN从大型重放内存中采样随机小批处理,然后使用RMSProp(SGD的一种高级形式)减少损失的原因。

© www.soinside.com 2019 - 2024. All rights reserved.