LLM2D

摘要

arXiv:2410.05362v2 宣传类型: 替换-交叉摘要: 大型语言模型（LLMs）在上下文学习（ICL）方面表现出色，这是一种依赖于将标注示例添加到模型上下文中的监督学习技术。我们研究了一种上下文多臂 bandit 版本的上下文强化学习（ICRL），在这种方法中，模型通过外部奖励在线地进行上下文学习，而不是通过监督数据进行学习。我们展示了LLMs在这种学习中有效表现出这种学习的能力，并对具有挑战性的分类任务和从5亿到700亿参数的不同规模的模型进行了详细的实证研究。这包括识别和解决该过程的不稳定性问题，展示了使用语义和抽象标签的学习能力，并展示了规模趋势。我们的发现突显了LLMs中的ICRL能力，同时也强调了它们在隐含推理错误方面的基本限制。