LLM2D
大型语言模型是上下文强化学习者
LLMs Are In-Context Reinforcement Learners
作者: Giovanni Monea, Antoine Bosselut, Kiant\'e Brantley, Yoav Artzi
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05362v1

摘要

大型语言模型 (LLM) 可以通过上下文监督学习 (ICL) 来学习新的任务。这项工作研究了这种能力是否可以扩展到上下文强化学习 (ICRL),其中模型在上下文中没有得到黄金标签,而只有它们过去的预测和奖励。我们发现 ICRL 的简单应用会惨败,并确定了根本原因是探索方面的根本缺陷,导致模型快速退化。我们提出了一种算法,通过增加测试时计算来解决这种缺陷,以及一种计算受限的近似方法。我们使用几个具有挑战性的分类任务来实证表明我们的 ICRL 算法可以从奖励中有效地学习,并分析了这种能力和我们方法的特征。总的来说,我们的结果揭示了 LLM 中非凡的 ICRL 能力。