LLM2D
基于扩散策略的最大熵强化学习
Maximum Entropy Reinforcement Learning with Diffusion Policy
作者: Xiaoyi Dong, Jian Cheng, Xi Sheryl Zhang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11612v1

摘要

arXiv:2502.11612v1 交叉类型: 摘要:Soft Actor-Critic (SAC) 算法搭配高斯策略已经成为实现最大熵强化学习(MaxEnt RL)目标的主流实现,该目标将熵最大化纳入其中以鼓励探索并提高策略的鲁棒性。虽然高斯策略在简单的任务上表现出色,但由于其固有的单模性,其探索能力和在复杂多目标RL环境中的潜在性能受到限制。在本文中,我们采用生成模型——一种能够捕捉复杂多模态分发的强大生成模型——作为策略表示,以实现MaxEnt RL目标,发展了一种名为MaxEnt RL with Diffusion Policy (MaxEntDP)的方法。该方法能够高效探索,并使策略更接近最优的MaxEnt策略。在Mujoco基准上的实验结果表明,MaxEntDP在MaxEnt RL框架内的高斯策略和其他生成模型中表现出优越性,并在基于扩散的在线RL算法中与其他先进算法表现出相当的性能。我们的代码可在https://github.com/diffusionyes/MaxEntDP获取。