摘要
arXiv:2502.05672v1 类别:交叉学科
摘要:本文对Episodic Upside-Down强化学习、目标条件监督学习和在线决策转换器的收敛性和稳定性进行了严格的分析。这些算法在从游戏到机器人任务的各种基准测试中表现相当,但在理论理解上,它们仅限于特定的环境条件。本文为基于监督学习或序列建模的强化学习方法奠定了理论基础。这项研究的核心在于分析在哪些环境条件下,算法能够识别最优解。我们还评估了在环境受到微小噪声影响的情况下,新兴解的稳定性。具体来说,我们研究了命令条件策略、值和目标在底层马尔可夫决策过程的转移内核下的连续性和渐近收敛性。研究表明,如果转移内核位于确定性内核的足够小邻域内,可以实现接近最优的行为。提到的数量在确定性内核下不仅渐近上是连续的,而且在有限的学习周期后也是连续的。开发的方法使我们能够首次以底层转移内核的形式明确地估计策略和值的收敛性和稳定性。从理论角度来看,我们引入了新的概念,例如在段空间中工作、在商拓扑研究连续性以及使用动力系统不动点理论的应用。理论研究伴随以对示例环境的详细调查和数值实验。