LLM2D
具有扩散策略的最大熵强化学习
Maximum Entropy Reinforcement Learning with Diffusion Policy
作者: Xiaoyi Dong, Jian Cheng, Xi Sheryl Zhang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11612v2

摘要

arXiv:2502.11612v2 Announce Type: cross 摘要:具有高斯策略的Soft Actor-Critic(SAC)算法已成为实现最大熵强化学习(MaxEnt RL)目标的主要实现方式,该目标将熵最大化融入其中以鼓励探索并提高策略的鲁棒性。虽然高斯策略在简单任务上表现良好,但其探索能力和在复杂多目标RL环境中的潜在性能受限于其固有的单模性。在本文中,我们采用生成模型之一的扩散模型作为策略表示,该模型能够捕捉复杂的多模态分布,以实现MaxEnt RL目标,并开发了一种名为扩散策略最大熵RL(MaxEntDP)的方法。该方法能够有效探索,使策略更接近最优的MaxEnt策略。在Mujoco基准测试上的实验结果表明,MaxEntDP在MaxEnt RL框架内的表现优于高斯策略和其他生成模型,并且在性能上与其他基于扩散的在线RL算法相当。我们的代码可在https://github.com/diffusionyes/MaxEntDP获取。