摘要
为了在强化学习中获得更好的价值估计,我们提出了一种基于双重演员-评论家框架和时间差误差驱动正则化的全新算法,简称为 TDDR。TDDR 采用双重演员,每个演员都与一个评论家配对,从而充分利用双重评论家的优势。此外,TDDR 引入了一种创新的评论家正则化架构。与缺乏双重演员-评论家结构的经典确定性策略梯度算法相比,TDDR 提供了更优的估计。此外,与现有的具有双重演员-评论家框架的算法不同,TDDR 没有引入任何额外的超参数,显著简化了设计和实现过程。实验表明,TDDR 在具有挑战性的连续控制任务中与基准算法相比具有很强的竞争力。