LLM2D

摘要

一种名为“套娃策略梯度”（MPG）的新型策略梯度 (PG) 算法在固定步长最大熵强化学习的背景下被提出并研究，其中智能体旨在最大化熵奖励，此外还有累积奖励。在线性函数逼近设置中使用 softmax 策略，我们证明了熵正则化目标的最优策略的唯一性并对其进行了刻画，并证明了 MPG 的全局收敛性。这些结果是在连续状态和动作空间的情况下证明的。MPG 直观易懂，理论上合理，此外我们还证明了无限步长最大熵目标的最优策略可以通过 MPG 框架的最优策略任意逼近。最后，当策略由神经网络参数化时，我们根据收敛时的神经正切核给出了全局最优性的判据。作为概念验证，我们在标准测试基准上对 MPG 进行了数值评估。