LLM2D

摘要

arXiv:2406.09519v4 宣布类型: 替换-交叉摘要：虽然已知变压器语言模型（LMs）将特征从早期层传递到后期层，但模型如何表示和传递这些信息还不完全清楚。我们分析了两种LMs中使用的一种机制，该机制在一项任务中选择性地抑制上下文中的项目，并发现它构成了许多上下文检索行为中常用抽象的基础。具体来说，我们发现模型将在残差流的低秩子空间中写入特征，然后由后续层读出这些特征，从而在层之间形成低秩通信通道（Elhage等人，2021）。GPT-2模型激活中的一个特定3D子空间可以被遍历以在列表中按位置索引项目，我们证明这种机制可以解释模型对提示中项目顺序的看似任意的敏感性。即，当许多项目占据这个有限的空间时，模型难以从上下文中复制正确的信息。通过使用奇异值分解（SVD）分解注意力头，我们发现，分隔开一层或多层的注意力头之间之前描述的相互作用可以通过仅分析其权重矩阵来预测。我们证明可以通过我们发现的机制来操控内部模型表示以及根据模型权重进行编辑，显著提高我们在合成的衣物列表任务上的性能，有时将任务准确性提高了20%以上。我们的分析揭示了从语言模型预训练中学习到的一种出人意料的复杂可解释结构，并帮助我们理解为什么复杂的LMs有时会在简单领域中失效，从而促进了对更复杂行为的进一步分析。