摘要
一种名为“套娃策略梯度”(MPG)的新型策略梯度 (PG) 算法在固定步长最大熵强化学习的背景下被提出并研究,其中智能体旨在最大化熵奖励,此外还有累积奖励。在线性函数逼近设置中使用 softmax 策略,我们证明了熵正则化目标的最优策略的唯一性并对其进行了刻画,并证明了 MPG 的全局收敛性。这些结果是在连续状态和动作空间的情况下证明的。MPG 直观易懂,理论上合理,此外我们还证明了无限步长最大熵目标的最优策略可以通过 MPG 框架的最优策略任意逼近。最后,当策略由神经网络参数化时,我们根据收敛时的神经正切核给出了全局最优性的判据。作为概念验证,我们在标准测试基准上对 MPG 进行了数值评估。