LLM2D

摘要

强化学习（RL）问题在一般状态和动作空间中极其具有挑战性。与表格设置不同，无法枚举所有状态，然后迭代更新每个状态的策略。这阻止了许多经过充分研究的 RL 方法的应用，特别是那些具有可证明收敛保证的方法。在本文中，我们首先对最近开发的策略镜像下降方法进行了实质性的推广，以处理一般状态和动作空间。我们引入了将函数逼近纳入该方法的新方法，因此我们根本不需要使用显式策略参数化。此外，我们提出了一种新颖的策略对偶平均方法，该方法可以应用可能更简单的函数逼近技术。我们为这些方法在精确策略评估下应用于解决不同类别的 RL 问题建立了全局最优的线性收敛速度或平稳性的次线性收敛速度。然后，我们定义了策略评估的近似误差的适当概念，并研究了它们对这些方法应用于具有有限动作或连续动作空间的一般状态 RL 问题的收敛性的影响。据我们所知，这些算法框架的开发及其收敛分析似乎是文献中的新内容。初步数值结果证明了上述方法的稳健性，并表明它们可以与最先进的 RL 算法相媲美。