摘要
上下文学习 (ICL) 是一种新兴的针对语言模型 (LM) 的少样本学习范式,其内部机制尚未得到充分探索。尽管已有研究描述了 ICL 的内部处理过程,但它们难以捕捉大型语言模型中的所有推理现象。因此,本文提出了一个综合性的电路来模拟推理动态,并试图解释观察到的 ICL 现象。具体而言,我们将 ICL 推理分为三个主要操作:(1) 总结:LM 将每个输入文本(演示和查询)编码为隐藏状态中的线性表示,其中包含解决 ICL 任务的足够信息。(2) 语义合并:LM 将演示的编码表示与其对应的标签标记合并,以生成标签和演示的联合表示。(3) 特征检索和复制:LM 在任务子空间中搜索与查询表示相似的联合表示,并将搜索到的表示复制到查询中。然后,语言模型头部在一定程度上捕捉这些复制的标签表示,并将它们解码为预测标签。所提出的推理电路成功地捕捉到了 ICL 过程中观察到的许多现象,使其成为 ICL 推理过程的全面而实用的解释。此外,通过禁用所提出的步骤进行的消融分析严重损害了 ICL 性能,表明所提出的推理电路是一种主导机制。此外,我们确认并列出了一些旁路机制,这些机制与所提出的电路并行地解决了 ICL 任务。