LLM2D

摘要

我们引入了局部学习系数 (LLC) 的改进变体，这是一种基于奇异学习理论的模型复杂性度量，用于研究训练过程中 Transformer 语言模型内部结构的发展。通过将这些“改进的 LLC” (rLLC) 应用于两层纯注意力 Transformer 的各个组件，我们获得了关于注意力头逐步分化和专业化的全新见解。我们的方法揭示了注意力头如何在训练过程中分化为不同的功能角色，分析了这些头专门处理的数据类型，并发现了一个以前未被识别的多词组电路。这些发现表明，rLLC 为“发展性可解释性”提供了一个有原则的、定量的工具包，旨在通过模型在学习过程中的演变来理解模型。更广泛地说，这项工作朝着建立数据分布结构、损失景观的几何属性、学习动力学以及神经网络中出现的计算结构之间的对应关系迈出了一步。