我能找到的大多数材料(例如 David Silver 的在线课程)都提供了有关监督学习和强化学习之间关系的讨论。然而,它实际上是监督学习和在线强化学习之间的比较,其中代理在环境中运行(或模拟交互)以在有关底层动态的有限知识的情况下获得反馈。
我对离线(批量)强化学习更好奇,其中数据集(收集的学习经验)是先验给出的。那么与监督学习相比有什么区别呢?他们有什么相似之处?
在在线环境中,监督学习和强化学习之间的根本区别在于强化学习中探索的需要以及探索/利用之间的权衡。然而,在离线环境中也存在一些差异,这使得强化学习成为比监督学习更困难/更丰富的问题。我能想到的一些差异: