摘要
arXiv:2502.11612v2 Announce Type: cross
摘要:具有高斯策略的Soft Actor-Critic(SAC)算法已成为实现最大熵强化学习(MaxEnt RL)目标的主要实现方式,该目标将熵最大化融入其中以鼓励探索并提高策略的鲁棒性。虽然高斯策略在简单任务上表现良好,但其探索能力和在复杂多目标RL环境中的潜在性能受限于其固有的单模性。在本文中,我们采用生成模型之一的扩散模型作为策略表示,该模型能够捕捉复杂的多模态分布,以实现MaxEnt RL目标,并开发了一种名为扩散策略最大熵RL(MaxEntDP)的方法。该方法能够有效探索,使策略更接近最优的MaxEnt策略。在Mujoco基准测试上的实验结果表明,MaxEntDP在MaxEnt RL框架内的表现优于高斯策略和其他生成模型,并且在性能上与其他基于扩散的在线RL算法相当。我们的代码可在https://github.com/diffusionyes/MaxEntDP获取。