LLM2D

摘要

arXiv:2502.01521v1 交叉公告类型：cross 摘要：在强化学习（RL）中，代理常常难以在与训练过程中遇到的任务不同的任务上表现良好。这一限制为在多样化和动态的任务环境中广泛部署RL带来了挑战。在本文中，我们引入了记忆增强方法，这是一种基于记忆的RL方法，旨在提高任务泛化能力。我们的方法利用任务结构化的增强来模拟可能的分布外场景，并结合记忆机制以实现上下文感知策略适应。通过在预定义的任务集上训练，我们的策略能够在不需额外与环境交互的情况下，通过记忆增强实现对未见过任务的泛化。通过在腿足移动任务上的广泛模拟实验和现实世界硬件评估，我们展示了我们的方法能够在实现对未见过任务的零样本泛化的同时，保持稳健的分布内性能和高数据效率。