LLM2D
学习函数空间中的目标网络
Learning the Target Network in Function Space
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2406.01838v2

摘要

我们专注于强化学习(RL)环境中学习价值函数的任务。这个任务通常通过更新一对在线和目标网络,同时确保这两个网络的参数等价来解决。我们提出了Lookahead-Replicate(LR),这是一种对这种参数空间等价性不敏感的新价值函数近似算法。相反,LR算法设计旨在在函数空间中保持两个网络之间的等价性。这种基于价值的等价性通过采用一种新的目标网络更新来实现。我们证明了LR在学习价值函数时会导致收敛行为。我们还展示了实证结果,证明基于LR的目标网络更新显著提升了在Atari基准上的深度RL表现。