摘要
arXiv:2502.00873v1 知识类型:新
摘要:数学推理正逐渐成为衡量大语言模型(LLM)能力的重要指标,然而我们缺乏理解LLM在执行甚至简单的数学任务时如何处理这些任务的知识。为了解决这一问题,我们反向工程了三种中型LLM进行加法运算的方式。首先,我们发现这些LLM中数字以一种通用的螺旋形式表示,这种形式在加法和减法任务中具有很强的因果性,并且对整数除法、乘法和模算术也具有因果相关性。我们随后提出,LLM通过使用“时钟”算法操作这种通用的螺旋形式来计算加法:为了计算$a+b$,$a$和$b$的螺旋被操作以生成$a+b$答案的螺旋,然后从中读取模型对数。我们利用这些螺旋来建模有影响力的MLP输出、注意力头输出,甚至单个神经元的预激活,并通过因果干预验证我们的理解。通过展示LLM如何将数字表示在螺旋上,并操作这个螺旋来进行加法,我们提供了第一个关于LLM数学能力的表示层次上的解释。