摘要
arXiv:2505.05145v2 通知类型: 取代-交叉
摘要:为了进行上下文学习,语言模型必须从单个少样本示例中提取信号,将这些信号综合为一个学习预测规则,然后将此规则应用于新的示例。现代Transformer模型的前向传播中是如何实现这一过程的?为了研究这一问题,我们考虑了一个结构化的少样本学习任务族,其中真实的预测规则是向输入加一个整数k。我们发现Llama-3-8B在不同范围的k值上都达到了高精度,并通过一种新的优化方法定位到其少样本能力仅局限于三个注意力头。我们进一步展示提取的信号位于一个六维子空间中,其中四个维度跟踪个位数,另外两个维度跟踪整体大小。最后,我们探讨这些头如何从单个少样本示例中提取信息,发现了早期示例中的错误被后续示例抑制的自我修正机制。我们的结果展示了在整个前向传播过程中跟踪低维子空间如何提供对精细计算结构的见解。