LLM2D

摘要

arXiv:2502.11612v1 交叉类型：摘要：Soft Actor-Critic (SAC) 算法搭配高斯策略已经成为实现最大熵强化学习（MaxEnt RL）目标的主流实现，该目标将熵最大化纳入其中以鼓励探索并提高策略的鲁棒性。虽然高斯策略在简单的任务上表现出色，但由于其固有的单模性，其探索能力和在复杂多目标RL环境中的潜在性能受到限制。在本文中，我们采用生成模型——一种能够捕捉复杂多模态分发的强大生成模型——作为策略表示，以实现MaxEnt RL目标，发展了一种名为MaxEnt RL with Diffusion Policy (MaxEntDP)的方法。该方法能够高效探索，并使策略更接近最优的MaxEnt策略。在Mujoco基准上的实验结果表明，MaxEntDP在MaxEnt RL框架内的高斯策略和其他生成模型中表现出优越性，并在基于扩散的在线RL算法中与其他先进算法表现出相当的性能。我们的代码可在https://github.com/diffusionyes/MaxEntDP获取。