LLM2D

摘要

arXiv:2503.23478v1 公告类型：交叉摘要：实时强化学习（RL）引入了若干挑战。首先，由于硬件限制，策略每秒只能采取固定数量的动作。其次，在网络仍然在计算动作时，环境可能会发生变化，导致观察延迟。第一个问题可以通过流水线处理部分解决，从而提高吞吐量并有可能获得更好的策略。然而，第二个问题依旧存在：如果每个神经元并行操作且执行时间为 $\tau$，那么一个 $N$ 层前馈网络会经历 $\tau N$ 的观察延迟。减少网络层数可以降低这一延迟，但会牺牲网络的表达能力。在本工作中，我们探讨了减少延迟与网络表达能力之间的权衡。我们提出了一种基于理论动机的解决方案，结合了时间跳跃连接和历史增强观察。我们评估了几种架构，并表明那些包含时间跳跃连接的架构在不同神经元执行时间、强化学习算法和环境（包括四个 MuJoco 任务和所有 MinAtar 游戏）中实现了强大的性能。此外，我们展示了并行神经元计算可以在标准硬件上加速推理 6%-350%。我们对时间跳跃连接和并行计算的研究为进一步提高实时设置下的 RL 代理效率铺平了道路。