监督学习与监督学习离线(批量)强化学习

问题描述 投票:0回答:1

我能找到的大多数材料(例如 David Silver 的在线课程)都提供了有关监督学习和强化学习之间关系的讨论。然而,它实际上是监督学习和在线强化学习之间的比较,其中代理在环境中运行(或模拟交互)以在有关底层动态的有限知识的情况下获得反馈。

我对离线(批量)强化学习更好奇,其中数据集(收集的学习经验)是先验给出的。那么与监督学习相比有什么区别呢?他们有什么相似之处?

machine-learning reinforcement-learning unsupervised-learning
1个回答
9
投票
我对强化学习的离线(批量)设置更好奇,其中数据集(收集的学习经验)是先验的。那么与监督学习相比有什么区别呢?他们有什么相似之处?

在在线环境中,监督学习和强化学习之间的根本区别在于强化学习中探索的需要以及探索/利用之间的权衡。然而,在离线环境中也存在一些差异,这使得强化学习成为比监督学习更困难/更丰富的问题。我能想到的一些差异:

    在强化学习中,代理收到标量奖励方面的所谓“评估反馈”,这为代理提供了有关所采取操作质量的一些反馈,但它不会告诉代理该操作是否是最佳的行动与否。将此与监督学习进行对比,在监督学习中,代理接收所谓的“指导性反馈”:对于学习者做出的每个预测,它都会收到一个反馈(标签),说明最佳操作/预测是什么。里奇·萨顿 (Rich Sutton) 的书的第一章详细介绍了指导性反馈和评估性反馈之间的差异。本质上,强化学习是使用稀疏标签进行优化,对于某些操作,您可能根本得不到任何反馈,而在其他情况下,反馈可能会延迟,从而产生信用分配问题。
  1. 在强化学习中,您有一个时间方面,其目标是找到将状态映射到某个范围内(时间步数)的动作的最佳策略。如果地平线 T=1,那么它只是一个像监督学习中那样的一次性预测问题,但如果 T>1,那么它是一个顺序优化问题,您不仅必须在单一状态下找到最优动作,而且必须在多个状态,并且由于一个状态中采取的行动可能会影响未来状态中应采取的行动(即它是动态的),这一事实使情况变得更加复杂。
  2. 在监督学习中,数据点有一个固定的 i.i.d 分布(这至少是常见的假设)。在强化学习中,没有固定的分布,而是这种分布取决于所遵循的策略,并且这种分布通常不是独立同分布,而是相关的。
  3. 因此,强化学习是一个比监督学习丰富得多的问题。事实上,可以将任何监督学习任务转换为强化学习任务:监督任务的损失函数可以用来定义奖励函数,较小的损失映射到较大的奖励。尽管尚不清楚为什么要这样做,因为它将监督问题转化为更困难的强化学习 问题。强化学习比监督学习做出的假设更少,因此通常比监督学习更难解决。然而,相反的情况是不可能的,一般来说不可能将强化学习问题转化为监督学习问题。

© www.soinside.com 2019 - 2024. All rights reserved.