LLM2D

摘要

arXiv:2502.11612v2 Announce Type: cross 摘要：具有高斯策略的Soft Actor-Critic（SAC）算法已成为实现最大熵强化学习（MaxEnt RL）目标的主要实现方式，该目标将熵最大化融入其中以鼓励探索并提高策略的鲁棒性。虽然高斯策略在简单任务上表现良好，但其探索能力和在复杂多目标RL环境中的潜在性能受限于其固有的单模性。在本文中，我们采用生成模型之一的扩散模型作为策略表示，该模型能够捕捉复杂的多模态分布，以实现MaxEnt RL目标，并开发了一种名为扩散策略最大熵RL（MaxEntDP）的方法。该方法能够有效探索，使策略更接近最优的MaxEnt策略。在Mujoco基准测试上的实验结果表明，MaxEntDP在MaxEnt RL框架内的表现优于高斯策略和其他生成模型，并且在性能上与其他基于扩散的在线RL算法相当。我们的代码可在https://github.com/diffusionyes/MaxEntDP获取。