LLM2D
处理实时强化学习中的延迟
Handling Delay in Real-Time Reinforcement Learning
作者: Ivan Anokhin, Rishav Rishav, Matthew Riemer, Stephen Chung, Irina Rish, Samira Ebrahimi Kahou
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23478v1

摘要

arXiv:2503.23478v1 公告类型:交叉 摘要:实时强化学习(RL)引入了若干挑战。首先,由于硬件限制,策略每秒只能采取固定数量的动作。其次,在网络仍然在计算动作时,环境可能会发生变化,导致观察延迟。第一个问题可以通过流水线处理部分解决,从而提高吞吐量并有可能获得更好的策略。然而,第二个问题依旧存在:如果每个神经元并行操作且执行时间为 $\tau$,那么一个 $N$ 层前馈网络会经历 $\tau N$ 的观察延迟。减少网络层数可以降低这一延迟,但会牺牲网络的表达能力。在本工作中,我们探讨了减少延迟与网络表达能力之间的权衡。我们提出了一种基于理论动机的解决方案,结合了时间跳跃连接和历史增强观察。我们评估了几种架构,并表明那些包含时间跳跃连接的架构在不同神经元执行时间、强化学习算法和环境(包括四个 MuJoco 任务和所有 MinAtar 游戏)中实现了强大的性能。此外,我们展示了并行神经元计算可以在标准硬件上加速推理 6%-350%。我们对时间跳跃连接和并行计算的研究为进一步提高实时设置下的 RL 代理效率铺平了道路。