摘要
arXiv:2502.11612v1 交叉类型:
摘要:Soft Actor-Critic (SAC) 算法搭配高斯策略已经成为实现最大熵强化学习(MaxEnt RL)目标的主流实现,该目标将熵最大化纳入其中以鼓励探索并提高策略的鲁棒性。虽然高斯策略在简单的任务上表现出色,但由于其固有的单模性,其探索能力和在复杂多目标RL环境中的潜在性能受到限制。在本文中,我们采用生成模型——一种能够捕捉复杂多模态分发的强大生成模型——作为策略表示,以实现MaxEnt RL目标,发展了一种名为MaxEnt RL with Diffusion Policy (MaxEntDP)的方法。该方法能够高效探索,并使策略更接近最优的MaxEnt策略。在Mujoco基准上的实验结果表明,MaxEntDP在MaxEnt RL框架内的高斯策略和其他生成模型中表现出优越性,并在基于扩散的在线RL算法中与其他先进算法表现出相当的性能。我们的代码可在https://github.com/diffusionyes/MaxEntDP获取。