LLM2D

摘要

arXiv:2501.18666v1 Announce Type: cross 摘要：我们研究了一层注意力机制变压器在学习排序数字列表时如何发展出相关的结构。训练结束后，该模型在其注意力头的组织中形成了两种主要模式，我们称之为词汇分割和复制抑制。这两种模式都比多个头处理重叠的数字范围要简单。有趣的是，无论我们是否使用重量衰减（一种常见的正则化技术，被认为能够推动简化），词汇分割都会出现，这支持了神经网络自然偏好更简单解决方案的观点。我们将复制抑制与GPT-2中的一个机制联系起来，并研究其在我们模型中的功能作用。受到对该模型发育分析的见解指导，我们识别出了训练数据中的特征，这些特征驱动了模型最终获得的解决方案。这为未来的研究提供了一个具体的实例，说明训练数据如何塑造变压器的内部组织，为帮助我们更好地理解大语言模型如何发展其内部结构提供了途径。