LLM2D
LLMs 是基于上下文的强化学习者
LLMs Are In-Context Bandit Reinforcement Learners
作者: Giovanni Monea, Antoine Bosselut, Kiant\'e Brantley, Yoav Artzi
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2410.05362v2

摘要

arXiv:2410.05362v2 宣传类型: 替换-交叉 摘要: 大型语言模型(LLMs)在上下文学习(ICL)方面表现出色,这是一种依赖于将标注示例添加到模型上下文中的监督学习技术。我们研究了一种上下文多臂 bandit 版本的上下文强化学习(ICRL),在这种方法中,模型通过外部奖励在线地进行上下文学习,而不是通过监督数据进行学习。我们展示了LLMs在这种学习中有效表现出这种学习的能力,并对具有挑战性的分类任务和从5亿到700亿参数的不同规模的模型进行了详细的实证研究。这包括识别和解决该过程的不稳定性问题,展示了使用语义和抽象标签的学习能力,并展示了规模趋势。我们的发现突显了LLMs中的ICRL能力,同时也强调了它们在隐含推理错误方面的基本限制。