LLM2D

摘要

强化学习 (RL) 在解决复杂的决策制定和控制任务方面已被证明非常有效。然而，在大多数传统的 RL 算法中，策略通常被参数化为具有学习均值和方差的对角高斯分布，这限制了它们获取复杂策略的能力。为了解决这个问题，我们提出了一种名为“带熵调节器的扩散演员-评论家 (DACER)” 的在线 RL 算法。该算法将扩散模型的逆过程概念化为一种新的策略函数，并利用扩散模型拟合多峰分布的能力，从而增强了策略的表示能力。由于扩散策略的分布缺乏解析表达式，因此无法解析地确定其熵。为了缓解这个问题，我们提出了一种利用高斯混合模型估计扩散策略熵的方法。基于估计的熵，我们可以学习一个参数 $\alpha$，该参数调节探索和利用的程度。参数 $\alpha$ 将用于自适应地调节添加到扩散模型输出的动作上的噪声的方差。在 MuJoCo 基准和多峰任务上的实验结果表明，DACER 算法在大多数 MuJoCo 控制任务中取得了最先进 (SOTA) 的性能，同时表现出更强的扩散策略表示能力。