LLM2D
哪些注意力头对上下文学习重要?
Which Attention Heads Matter for In-Context Learning?
作者: Kayo Yin, Jacob Steinhardt
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14010v1

摘要

arXiv:2502.14010v1 交叉类型: cross 摘要: 大型语言模型(LLMs)展示了令人印象深刻的上下文中学习(ICL)能力,使它们能够在呈现中仅使用几个示例来执行新任务。已经提出了两种不同的机制来解释ICL:找到并复制相关令牌的归纳头部,以及激活计算ICL任务的潜在编码的功能向量(FV)头部。为了更好地了解是哪一个机制驱动ICL,我们在12个语言模型中研究并比较了归纳头部和FV头部。 通过详细的消融实验,我们发现少样本ICL性能主要依赖于FV头部,尤其是在更大的模型中。此外,我们发现FV头部和归纳头部之间存在联系:许多FV头部在训练过程中最初是归纳头部,然后过渡到FV机制。这促使我们推测归纳头部促进了学习更复杂的FV机制,最终驱动ICL。