LLM2D

摘要

arXiv:2502.01521v2 宣告类型: replace-cross 摘要：通过强化学习（RL）训练的智能体通常难以在训练过程中遇到的任务之外的任务上表现出色。这一局限性给在多样且动态任务设置中广泛部署RL带来了挑战。本文中，我们提出了记忆增强，这是一种基于记忆的RL方法，旨在提高任务通用性。我们的方法利用结构化任务增强来模拟可能的离分布场景，并结合记忆机制以实现上下文感知的策略适应。通过在预定义的任务集上训练，我们的策略通过记忆增强展示了解决未见过的任务的能力，而无需额外与环境交互。通过广泛的模拟实验和实际硬件评估，我们展示了我们的方法在保持稳健的在分布性能和高效样本利用的同时，实现了零样本泛化到未见过的任务。