LLM2D
带熵调节的扩散演员-评论家
Diffusion Actor-Critic with Entropy Regulator
作者: Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, Shengbo Eben Li
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2405.15177v4

摘要

强化学习 (RL) 在解决复杂的决策制定和控制任务方面已被证明非常有效。然而,在大多数传统的 RL 算法中,策略通常被参数化为具有学习均值和方差的对角高斯分布,这限制了它们获取复杂策略的能力。为了解决这个问题,我们提出了一种名为“带熵调节器的扩散演员-评论家 (DACER)” 的在线 RL 算法。该算法将扩散模型的逆过程概念化为一种新的策略函数,并利用扩散模型拟合多峰分布的能力,从而增强了策略的表示能力。由于扩散策略的分布缺乏解析表达式,因此无法解析地确定其熵。为了缓解这个问题,我们提出了一种利用高斯混合模型估计扩散策略熵的方法。基于估计的熵,我们可以学习一个参数 $\alpha$,该参数调节探索和利用的程度。参数 $\alpha$ 将用于自适应地调节添加到扩散模型输出的动作上的噪声的方差。在 MuJoCo 基准和多峰任务上的实验结果表明,DACER 算法在大多数 MuJoCo 控制任务中取得了最先进 (SOTA) 的性能,同时表现出更强的扩散策略表示能力。