LLM2D

摘要

强化学习 (RL) 在稀疏奖励领域存在样本效率低下的问题，并且在随机转移的情况下，这个问题更加突出。为了提高样本效率，奖励塑造是一种经过充分研究的方法，它可以引入内在奖励，帮助 RL 智能体更快地收敛到最优策略。然而，即使对于领域专家来说，为马尔可夫决策过程 (MDP) 中所有理想状态设计一个有用的奖励塑造函数也是一项挑战。鉴于大型语言模型 (LLM) 在大量自然语言任务中展现出令人印象深刻的性能，我们旨在回答以下问题：“我们能否使用 LLM 获得启发式方法来构建奖励塑造函数，从而提高 RL 智能体的样本效率？”为此，我们旨在利用现成的 LLM 为底层 MDP 的抽象生成一个计划。我们进一步使用这个 LLM 生成的计划作为启发式方法来构建下游 RL 智能体的奖励塑造信号。通过根据 MDP 的时间范围来表征抽象的类型，我们分析了使用 LLM 生成启发式方法（循环中是否包含验证器）的质量。我们在 BabyAI 环境套件、Household、Mario 和 Minecraft 领域中多个具有不同时间范围和子目标数量的领域进行的实验表明：1）使用和不使用验证器查询 LLM 生成奖励塑造启发式方法的优缺点；以及 2）在 LLM 生成的启发式方法的指导下，PPO、A2C 和 Q 学习的样本效率得到显著提高。