LLM2D

摘要

arXiv:2504.05840v1 Announce Type: 交叉摘要：传统的强化学习（RL）算法假设数据分布是均匀的或主要均匀的。然而，在自动驾驶或动物在自然界中游荡等大多数真实世界的应用场景中，这并不成立。一些经历经常被遇到，而剩下的大部分经历则很少发生；结果生成的分布称为Zipfian分布。受互补学习系统理论的启发，提出了一个从Zipfian分布中学习的架构，其中重要但罕见的轨迹以无监督的方式被发现。该提案包括一个包含优先记忆模块的经验性记忆缓冲区，以确保重要但罕见的轨迹被保存更长时间，以解决Zipfian问题，这需要以样本有效的方式进行回报分配。随后，这些经历从经验性记忆中重置，并赋予加权的重要性，形成要执行的轨迹。值得注意的是，所提出的架构是模块化的，可以整合到任何RL架构中，并在多个Zipfian任务上比传统架构表现出更好的性能。我们的方法在所有三个任务和所有三个评估指标（Zipfian、均匀分布和稀有准确性）上显著优于IMPALA，并且在大多数被认为是具有挑战性的 Atari 环境中也提供了改进。