摘要
上下文学习 (ICL) 是指模型通过观察其上下文中的几个示例来学习新任务的能力。虽然这种能力在 NLP 中很普遍,但最近也观察到它在强化学习 (RL) 设置中出现。然而,先前的上下文 RL 方法需要代理上下文中的完整情节。鉴于复杂环境通常会导致具有稀疏奖励的长时间情节,这些方法被限制在具有短情节的简单环境中。为了应对这些挑战,我们引入了检索增强决策变换器 (RA-DT)。RA-DT 采用外部记忆机制来存储过去的经历,从中它仅检索与当前情况相关的子轨迹。RA-DT 中的检索组件不需要训练,并且可以完全与领域无关。我们在网格世界环境、机器人模拟和程序生成视频游戏中评估了 RA-DT 的能力。在网格世界中,RA-DT 优于基线,同时仅使用其上下文长度的一小部分。此外,我们阐明了当前上下文 RL 方法在复杂环境中的局限性,并讨论了未来的方向。为了促进未来的研究,我们发布了四个所考虑环境的数据集。