摘要
大型语言模型 (LLM) 可以通过上下文监督学习 (ICL) 来学习新的任务。这项工作研究了这种能力是否可以扩展到上下文强化学习 (ICRL),其中模型在上下文中没有得到黄金标签,而只有它们过去的预测和奖励。我们发现 ICRL 的简单应用会惨败,并确定了根本原因是探索方面的根本缺陷,导致模型快速退化。我们提出了一种算法,通过增加测试时计算来解决这种缺陷,以及一种计算受限的近似方法。我们使用几个具有挑战性的分类任务来实证表明我们的 ICRL 算法可以从奖励中有效地学习,并分析了这种能力和我们方法的特征。总的来说,我们的结果揭示了 LLM 中非凡的 ICRL 能力。