LLM2D
确定性策略梯度 primal-dual 方法用于连续空间约束 MDP
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs
作者: Sergio Rozada, Dongsheng Ding, Antonio G. Marques, Alejandro Ribeiro
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2408.10015v2

摘要

arXiv:2408.10015v2 公告类型: 修订 摘要: 我们研究了计算受限马尔可夫决策过程(MDP)确定性最优策略的问题,其中状态和动作空间是连续的,这种问题在受限动力系统中广泛出现。由于缺乏可枚举的状态-动作对以及采用确定性策略,在连续状态和动作空间中设计确定性策略梯度方法特别具有挑战性,阻碍了现有策略梯度方法的应用。为了解决这个问题,我们提出了一种确定性策略梯度对偶方法,以求得非渐近收敛的最优确定性策略。具体来说,我们利用受约束MDP的拉格朗日函数正则化,提出了一种确定性策略梯度对偶(D-PGPD)算法,通过二次正则化梯度上升步骤更新确定性策略,通过二次正则化梯度下降步骤更新对偶变量。我们证明了D-PGPD的对偶迭代收敛到一个最优正则化对偶对的次线性速度。我们用函数逼近实例化D-PGPD,并证明了D-PGPD的对偶迭代收敛到最优正则化对偶对的次线性速度,直到函数逼近误差。此外,我们展示了我们的方法在两种连续控制问题中的有效性:机器人导航和流体控制。这似乎是第一个提出确定性策略搜索方法用于连续空间受限MDP的工作。