LLM2D

摘要

arXiv:2502.00873v1 知识类型：新摘要：数学推理正逐渐成为衡量大语言模型（LLM）能力的重要指标，然而我们缺乏理解LLM在执行甚至简单的数学任务时如何处理这些任务的知识。为了解决这一问题，我们反向工程了三种中型LLM进行加法运算的方式。首先，我们发现这些LLM中数字以一种通用的螺旋形式表示，这种形式在加法和减法任务中具有很强的因果性，并且对整数除法、乘法和模算术也具有因果相关性。我们随后提出，LLM通过使用“时钟”算法操作这种通用的螺旋形式来计算加法：为了计算$a+b$，$a$和$b$的螺旋被操作以生成$a+b$答案的螺旋，然后从中读取模型对数。我们利用这些螺旋来建模有影响力的MLP输出、注意力头输出，甚至单个神经元的预激活，并通过因果干预验证我们的理解。通过展示LLM如何将数字表示在螺旋上，并操作这个螺旋来进行加法，我们提供了第一个关于LLM数学能力的表示层次上的解释。