LLM2D

摘要

我们专注于强化学习（RL）环境中学习价值函数的任务。这个任务通常通过更新一对在线和目标网络，同时确保这两个网络的参数等价来解决。我们提出了Lookahead-Replicate（LR），这是一种对这种参数空间等价性不敏感的新价值函数近似算法。相反，LR算法设计旨在在函数空间中保持两个网络之间的等价性。这种基于价值的等价性通过采用一种新的目标网络更新来实现。我们证明了LR在学习价值函数时会导致收敛行为。我们还展示了实证结果，证明基于LR的目标网络更新显著提升了在Atari基准上的深度RL表现。