LLM2D

摘要

为了在强化学习中获得更好的价值估计，我们提出了一种基于双重演员-评论家框架和时间差误差驱动正则化的全新算法，简称为 TDDR。TDDR 采用双重演员，每个演员都与一个评论家配对，从而充分利用双重评论家的优势。此外，TDDR 引入了一种创新的评论家正则化架构。与缺乏双重演员-评论家结构的经典确定性策略梯度算法相比，TDDR 提供了更优的估计。此外，与现有的具有双重演员-评论家框架的算法不同，TDDR 没有引入任何额外的超参数，显著简化了设计和实现过程。实验表明，TDDR 在具有挑战性的连续控制任务中与基准算法相比具有很强的竞争力。