LLM2D

摘要

arXiv:2502.13913v1 类型: cross 摘要：“苏格拉底是人。所有人都会死亡。因此，苏格拉底会死亡。”这个经典的例子展示了两跳推理，即结论在两个相连前提的基础上逻辑得出。虽然基于变换器的大语言模型（LLMs）可以进行两跳推理，但在面对分散注意力的前提时，它们往往会退化为随机猜测。为了了解其背后的机制，我们在合成的两跳推理任务上训练了一个三层变换器。训练动态显示出两个阶段：一个缓慢的学习阶段，在此阶段中，三层变换器像LLMs一样进行随机猜测，随后是一个突然的相变阶段，在此阶段中，三层变换器突然达到100%的准确性。通过逆向工程，我们解释了模型如何在初期随机猜测干扰，如何在最终学会忽略干扰的原因。我们进一步提出一个三个参数模型，支持对变换器训练动态机制的因果陈述。最后，对于LLMs的实验结果表明，发现的机制在不同规模下具有泛化能力。我们的方法为大语言模型的科学理解提供了新的视角，而我们的发现为推理如何在训练过程中涌现提供了新的见解。