LLM2D

摘要

arXiv:2409.09281v2 宣告类型: replace-cross 摘要：我们探讨了语言模型的预训练动态，重点关注它们从先前上下文中复制文本的能力——这是一种对各种大型语言模型（LLM）应用至关重要的基本技能，包括上下文学习（ICL）和检索增强生成（RAG）。我们提出了一种新的视角，即基于变换器的语言模型在发展复制能力方面的过程与“通透”（g grokking）相似，“通透”指的是模型在训练集拟合后很长时间在测试集上突然表现出泛化能力。我们的实验得出三个论点：(1) 预训练损失快速下降，而模型最初在上下文复制能力方面落后，随后突然饱和。(2) 发展复制能力的速度与训练的标记数量无关，类似于在保持数据分布的前提下，数据集大小不影响“通透”速度。(3) 负责复制的注意力头，从训练初期浅层到深层逐渐形成，在训练过程中与“通透”过程中更深层电路的发展相呼应。我们认为，将“通透”与上下文复制之间的联系视为有效的语言模型训练提供有价值的见解，最终提高上下文学习性能。例如，我们证明了增强“通透”的技术，如正则化，要么加速，要么增强上下文复制的发展。