LLM2D
长尾强化学习环境中提高学习能力的动量增强 episodic 记忆
Momentum Boosted Episodic Memory for Improving Learning in Long-Tailed RL Environments
作者: Dolton Fernandes, Pramod Kaushik, Harsh Shukla, Bapi Raju Surampudi
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05840v1

摘要

arXiv:2504.05840v1 Announce Type: 交叉 摘要:传统的强化学习(RL)算法假设数据分布是均匀的或主要均匀的。然而,在自动驾驶或动物在自然界中游荡等大多数真实世界的应用场景中,这并不成立。一些经历经常被遇到,而剩下的大部分经历则很少发生;结果生成的分布称为Zipfian分布。受互补学习系统理论的启发,提出了一个从Zipfian分布中学习的架构,其中重要但罕见的轨迹以无监督的方式被发现。该提案包括一个包含优先记忆模块的经验性记忆缓冲区,以确保重要但罕见的轨迹被保存更长时间,以解决Zipfian问题,这需要以样本有效的方式进行回报分配。随后,这些经历从经验性记忆中重置,并赋予加权的重要性,形成要执行的轨迹。值得注意的是,所提出的架构是模块化的,可以整合到任何RL架构中,并在多个Zipfian任务上比传统架构表现出更好的性能。我们的方法在所有三个任务和所有三个评估指标(Zipfian、均匀分布和稀有准确性)上显著优于IMPALA,并且在大多数被认为是具有挑战性的 Atari 环境中也提供了改进。