摘要
arXiv:2502.13913v1 类型: cross
摘要:“苏格拉底是人。所有人都会死亡。因此,苏格拉底会死亡。”这个经典的例子展示了两跳推理,即结论在两个相连前提的基础上逻辑得出。虽然基于变换器的大语言模型(LLMs)可以进行两跳推理,但在面对分散注意力的前提时,它们往往会退化为随机猜测。为了了解其背后的机制,我们在合成的两跳推理任务上训练了一个三层变换器。训练动态显示出两个阶段:一个缓慢的学习阶段,在此阶段中,三层变换器像LLMs一样进行随机猜测,随后是一个突然的相变阶段,在此阶段中,三层变换器突然达到100%的准确性。通过逆向工程,我们解释了模型如何在初期随机猜测干扰,如何在最终学会忽略干扰的原因。我们进一步提出一个三个参数模型,支持对变换器训练动态机制的因果陈述。最后,对于LLMs的实验结果表明,发现的机制在不同规模下具有泛化能力。我们的方法为大语言模型的科学理解提供了新的视角,而我们的发现为推理如何在训练过程中涌现提供了新的见解。