LLM2D

摘要

arXiv:2408.10015v2 公告类型: 修订摘要: 我们研究了计算受限马尔可夫决策过程（MDP）确定性最优策略的问题，其中状态和动作空间是连续的，这种问题在受限动力系统中广泛出现。由于缺乏可枚举的状态-动作对以及采用确定性策略，在连续状态和动作空间中设计确定性策略梯度方法特别具有挑战性，阻碍了现有策略梯度方法的应用。为了解决这个问题，我们提出了一种确定性策略梯度对偶方法，以求得非渐近收敛的最优确定性策略。具体来说，我们利用受约束MDP的拉格朗日函数正则化，提出了一种确定性策略梯度对偶（D-PGPD）算法，通过二次正则化梯度上升步骤更新确定性策略，通过二次正则化梯度下降步骤更新对偶变量。我们证明了D-PGPD的对偶迭代收敛到一个最优正则化对偶对的次线性速度。我们用函数逼近实例化D-PGPD，并证明了D-PGPD的对偶迭代收敛到最优正则化对偶对的次线性速度，直到函数逼近误差。此外，我们展示了我们的方法在两种连续控制问题中的有效性：机器人导航和流体控制。这似乎是第一个提出确定性策略搜索方法用于连续空间受限MDP的工作。