LLM2D
从大型语言模型中提取启发式方法用于强化学习中的奖励塑造
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning
作者: Siddhant Bhambri, Amrita Bhattacharjee, Durgesh Kalwar, Lin Guan, Huan Liu, Subbarao Kambhampati
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2405.15194v2

摘要

强化学习 (RL) 在稀疏奖励领域存在样本效率低下的问题,并且在随机转移的情况下,这个问题更加突出。为了提高样本效率,奖励塑造是一种经过充分研究的方法,它可以引入内在奖励,帮助 RL 智能体更快地收敛到最优策略。然而,即使对于领域专家来说,为马尔可夫决策过程 (MDP) 中所有理想状态设计一个有用的奖励塑造函数也是一项挑战。鉴于大型语言模型 (LLM) 在大量自然语言任务中展现出令人印象深刻的性能,我们旨在回答以下问题:“我们能否使用 LLM 获得启发式方法来构建奖励塑造函数,从而提高 RL 智能体的样本效率?”为此,我们旨在利用现成的 LLM 为底层 MDP 的抽象生成一个计划。我们进一步使用这个 LLM 生成的计划作为启发式方法来构建下游 RL 智能体的奖励塑造信号。通过根据 MDP 的时间范围来表征抽象的类型,我们分析了使用 LLM 生成启发式方法(循环中是否包含验证器)的质量。我们在 BabyAI 环境套件、Household、Mario 和 Minecraft 领域中多个具有不同时间范围和子目标数量的领域进行的实验表明:1)使用和不使用验证器查询 LLM 生成奖励塑造启发式方法的优缺点;以及 2)在 LLM 生成的启发式方法的指导下,PPO、A2C 和 Q 学习的样本效率得到显著提高。