摘要
arXiv:2410.04468v4 Announce Type: replace-cross
摘要:上下文内学习(In-context Learning, ICL)是语言模型(Language Models, LMs)中的一个新兴的少样本学习范式,其内部机制尚未得到充分探索。虽然已有工作描述了ICL的内部处理过程,但它们很难捕捉大型语言模型中的所有推理现象。因此,本文提出了一种全面的电路来建模推理动力学,并尝试解释观察到的ICL现象。具体而言,我们将ICL推理分为三个主要操作:(1)输入文本编码:LMs将每条输入文本(演示和查询中的)编码成隐藏状态中的线性表示,这些表示包含了足够信息来解决ICL任务。 (2)语义合并:LMs将演示的编码表示与其相应的标签词元合并,生成标签和演示的联合表示。 (3)特征检索和复制:LMs在任务子空间中搜索与查询表示相似的演示联合表示,并将搜索到的表示复制到查询中。然后,语言模型头部分程度地捕获这些复制的标签表示并将其解码为预测标签。通过仔细的测量,提出的设计成功地捕捉并统一了ICL过程中观察到的许多零散现象,使其成为ICL推理过程的全面而实用的解释。此外,通过禁用提出的方法的所有步骤,ICL性能严重受损,这表明提出的设计是一个主导机制。此外,我们确认并列出了与提出的设计并行解决ICL任务的一些旁路机制。