摘要
arXiv:2409.04744v2 公告类型: 替换交叉
摘要:强化学习(RL)中环境过渡模型的固有不确定性要求在探索与利用之间保持微妙的平衡。这种平衡对于优化计算资源以准确估计代理的预期奖励至关重要。在稀疏奖励的场景中,如机器人控制系统,实现这一平衡尤其具有挑战性。然而,考虑到许多环境已经具备了大量的先验知识,在这样的背景下从头学习可能是冗余的。为了解决这一问题,我们提出了一种新颖的样本高效框架,即语言模型引导的奖励调优(LMGT)。LMGT 利用了大型语言模型(LLMs)中嵌入的全面先验知识及其处理非标准数据形式(如维基教程)的能力。通过利用 LLM 引导的奖励调整,LMGT 精确地在探索与利用之间找到了平衡,从而指导代理的探索行为并提高样本效率。我们已经对该框架在各种 RL 任务上进行了严格的评估,并在实体机器人环境 Housekeep 中进行了评估。我们的结果显示,LMGT 在各种基线方法中表现始终更为出色。此外,研究结果表明,我们的框架在 RL 训练阶段可以显著减少所需的计算资源。