LLM2D

摘要

强化学习（RL）中稀疏奖励环境对探索提出了重大挑战，往往会导致学习过程效率低下或不完整。为了解决这个问题，本文提出了一种师生 RL 框架，该框架利用大型语言模型 (LLM) 作为“教师”来指导智能体的学习过程，将复杂的任务分解成子目标。由于 LLM 具有基于结构和目的的文本描述来理解 RL 环境的固有能力，因此它们可以提供子目标来完成为环境定义的任务，方式类似于人类。在此过程中，提出了三种类型的子目标：相对于智能体的定位目标、对象表示以及由 LLM 直接生成的基于语言的指令。更重要的是，我们证明了只在训练阶段查询 LLM 是可能的，使智能体能够在没有任何 LLM 干预的情况下在环境中运行。我们通过评估三个最先进的开源 LLM（Llama、DeepSeek、Qwen）在 MiniGrid 基准测试的各种程序生成环境中引发子目标来评估该提议框架的性能。实验结果表明，这种基于课程的方法加速了学习，增强了复杂任务中的探索，与为稀疏奖励环境设计的最新基线相比，训练步骤的收敛速度提高了 30 到 200 倍。